Understanding the testing culture of machine learning projects on Github.

Página inicial
→
Campus Campina Grande | Centro de Engenharia Elétrica e Informática - CEEI
→
CURSOS DE GRADUAÇÃO DO CEEI
→
Curso de Bacharelado em Ciência da Computação
→
Trabalho de Conclusão de Curso - Artigo - Ciência da Computação
→
Ver item

dc.creator.ID	SANTOS, W. M. A.	pt_BR
dc.creator.Lattes	http://lattes.cnpq.br/3961233355703842	pt_BR
dc.contributor.advisor1	ALVES, Everton Leandro Galdino.
dc.contributor.advisor1ID	ALVES, E. L. G.	pt_BR
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/2793969744497453	pt_BR
dc.contributor.referee1	ALMEIDA, Carlos Wilson Dantas de.
dc.contributor.referee2	MASSONI, Tiago Lima.
dc.description.resumo	Nos últimos anos, o uso de aprendizado de máquina aumentou em diversas indústrias, mostrando seu notável potencial para resolver tanto problemas antigos como emergentes em uma escala nunca antes vista. No entanto, apesar dos esforços na produção de modelos novos e melhorados, bem como metodologias de treinamento mais confiáveis, pouco se sabe sobre como esses softwares estão sendo testados. Neste trabalho, investigamos a adoção de bibliotecas Python para, ou relacionadas, a testes automatizados em mais de 290 repositórios de aprendizado de máquina no Github. Nós também comparamos repositórios que usam e não usam essas ferramentas, em termos de métricas de qualidade, e estudamos sua cobertura de código. Como resultado, 28 bibliotecas usadas para fins de suporte a testes foram identificadas e 65,19% de todos os projetos adotaram pelo menos uma delas. Nós também encontramos que projetos de aprendizagem por reforço e de análise/visualização de dados têm as maiores adoções de testes automatizados, e que unittest, pytest e doctest são as bibliotecas mais utilizadas em nosso corpus. Além disso, descobrimos que metade dos projetos que usam pelo menos uma biblioteca de testes, tem menos code smells (48,28% em mediana) e, em média, eles têm menos vulnerabilidades (71,42%).	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	Centro de Engenharia Elétrica e Informática - CEEI	pt_BR
dc.publisher.initials	UFCG	pt_BR
dc.subject.cnpq	Ciência da Computação.	pt_BR
dc.title	Understanding the testing culture of machine learning projects on Github.	pt_BR
dc.date.issued	2023-02-14
dc.description.abstract	In the last few years, the use of machine learning has spiked in several industries, showing its remarkable potential for solving both old and emergent problems on a scale never seen before. However, despite the eforts on producing new and improved models, as well as more reliable training methodologies, little is known about how these softwares are being tested. In this paper, we investigate the adoption of Python libraries for or related to automated testing on more than 290 machine learning repositories on Github. We also compare repositories that do and do not use those tools, in terms of quality metrics, and study their code coverage. As a result, 28 libraries used for testing support purposes were identiied and 65.19% of all projects adopted at least one of them. We also found that reinforcement learning and data analysis/visualization projects have the highest adoptions of automated testing, and that unittest, pytest and doctest are the most used libraries in our corpus. Furthermore, we found that half of the projects that use at least one testing library, have less code smells (48.28% in median) and, on average, they have less vulnerabilities (71.42%).	pt_BR
dc.identifier.uri	http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/29359
dc.date.accessioned	2023-04-11T17:52:55Z
dc.date.available	2023-04-11
dc.date.available	2023-04-11T17:52:55Z
dc.type	Trabalho de Conclusão de Curso	pt_BR
dc.subject	Github	pt_BR
dc.subject	Aprendizado de máquina	pt_BR
dc.subject	Teste de software	pt_BR
dc.subject	Biblioteca Python	pt_BR
dc.subject	Repositórios de aprendizado de máquina	pt_BR
dc.subject	Machine learning	pt_BR
dc.subject	Software testing	pt_BR
dc.subject	Python library	pt_BR
dc.subject	Machine learning repositories	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.creator	SANTOS, Wesley Matteus Araújo dos.
dc.publisher	Universidade Federal de Campina Grande	pt_BR
dc.language	por	pt_BR
dc.title.alternative	Understanding the testing culture of machine learning projects on Github.	pt_BR
dc.identifier.citation	SANTOS, Wesley Matteus Araújo dos. Understanding the testing culture of machine learning projects on Github. 2023. 11f. (Trabalho de Conclusão de Curso - Artigo), Curso de Bacharelado em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande – Paraíba - Brasil, 2023. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/29359	pt_BR