Please use this identifier to cite or link to this item: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/29359
Title: Understanding the testing culture of machine learning projects on Github.
Other Titles: Understanding the testing culture of machine learning projects on Github.
???metadata.dc.creator???: SANTOS, Wesley Matteus Araújo dos.
???metadata.dc.contributor.advisor1???: ALVES, Everton Leandro Galdino.
???metadata.dc.contributor.referee1???: ALMEIDA, Carlos Wilson Dantas de.
???metadata.dc.contributor.referee2???: MASSONI, Tiago Lima.
Keywords: Github;Aprendizado de máquina;Teste de software;Biblioteca Python;Repositórios de aprendizado de máquina;Machine learning;Software testing;Python library;Machine learning repositories
Issue Date: 14-Feb-2023
Publisher: Universidade Federal de Campina Grande
Citation: SANTOS, Wesley Matteus Araújo dos. Understanding the testing culture of machine learning projects on Github. 2023. 11f. (Trabalho de Conclusão de Curso - Artigo), Curso de Bacharelado em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande – Paraíba - Brasil, 2023. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/29359
???metadata.dc.description.resumo???: Nos últimos anos, o uso de aprendizado de máquina aumentou em diversas indústrias, mostrando seu notável potencial para resolver tanto problemas antigos como emergentes em uma escala nunca antes vista. No entanto, apesar dos esforços na produção de modelos novos e melhorados, bem como metodologias de treinamento mais confiáveis, pouco se sabe sobre como esses softwares estão sendo testados. Neste trabalho, investigamos a adoção de bibliotecas Python para, ou relacionadas, a testes automatizados em mais de 290 repositórios de aprendizado de máquina no Github. Nós também comparamos repositórios que usam e não usam essas ferramentas, em termos de métricas de qualidade, e estudamos sua cobertura de código. Como resultado, 28 bibliotecas usadas para fins de suporte a testes foram identificadas e 65,19% de todos os projetos adotaram pelo menos uma delas. Nós também encontramos que projetos de aprendizagem por reforço e de análise/visualização de dados têm as maiores adoções de testes automatizados, e que unittest, pytest e doctest são as bibliotecas mais utilizadas em nosso corpus. Além disso, descobrimos que metade dos projetos que usam pelo menos uma biblioteca de testes, tem menos code smells (48,28% em mediana) e, em média, eles têm menos vulnerabilidades (71,42%).
Abstract: In the last few years, the use of machine learning has spiked in several industries, showing its remarkable potential for solving both old and emergent problems on a scale never seen before. However, despite the eforts on producing new and improved models, as well as more reliable training methodologies, little is known about how these softwares are being tested. In this paper, we investigate the adoption of Python libraries for or related to automated testing on more than 290 machine learning repositories on Github. We also compare repositories that do and do not use those tools, in terms of quality metrics, and study their code coverage. As a result, 28 libraries used for testing support purposes were identiied and 65.19% of all projects adopted at least one of them. We also found that reinforcement learning and data analysis/visualization projects have the highest adoptions of automated testing, and that unittest, pytest and doctest are the most used libraries in our corpus. Furthermore, we found that half of the projects that use at least one testing library, have less code smells (48.28% in median) and, on average, they have less vulnerabilities (71.42%).
Keywords: Github
Aprendizado de máquina
Teste de software
Biblioteca Python
Repositórios de aprendizado de máquina
Machine learning
Software testing
Python library
Machine learning repositories
???metadata.dc.subject.cnpq???: Ciência da Computação.
URI: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/29359
Appears in Collections:Trabalho de Conclusão de Curso - Artigo - Ciência da Computação

Files in This Item:
File Description SizeFormat 
WESLEY MATTEUS ARAÚJO DOS SANTOS - TCC ARTIGO CIÊNCIA DA COMPUTAÇÃO CEEI 2023.pdfWesley Matteus Araújo dos Santos - TCC Artigo Ciência da Computação CEEI 2023.346.51 kBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.