Dépôt DSpace/Manakin

Avaliação do Modelo T5 na Detecção de Bug Reports Similares: Uma Abordagem Híbrida com TF-IDF

Afficher la notice abrégée

dc.creator.ID BARBOSA, I. C. pt_BR
dc.creator.Lattes http://lattes.cnpq.br/2396932829533767 pt_BR
dc.contributor.advisor1 MONTEIRO, João Arthur Brunet.
dc.contributor.advisor1ID BRUNET, J. A. M. pt_BR
dc.contributor.advisor1Lattes http://lattes.cnpq.br/7892247821251194 pt_BR
dc.contributor.advisor2 RAMALHO, Franklin de Souza.
dc.contributor.advisor2ID Ramalho, F. pt_BR
dc.contributor.advisor2Lattes http://lattes.cnpq.br/2469816352786812 pt_BR
dc.contributor.referee1 MASSONI, Tiago Lima.
dc.contributor.referee2 KULESZA, Uira.
dc.description.resumo No contexto do desenvolvimento de software, bug reports (BRs) são fundamentais para identificar e descrever falhas que impactam a qualidade e estabilidade do produto final. O crescente volume de BRs em grandes projetos de software torna a identificação manual de BRs similares uma tarefa demorada e propensa a erros, levando a uma menor eficiência no processo de desenvolvimento. Visando melhorar a alocação de recursos, agilizar a resolução de problemas recorrentes e otimizar o desenvolvimento de software, examinamos a aplicação de técnicas de aprendizagem de máquina relevantes aos problemas. Para tal, foi utilizado o modelo T5 (Text-to-Text Transfer Transformer), o método TF-IDF (Term Frequency-Inverse Document Frequency) e uma abordagem híbrida, aproveitando a eficácia do T5 em tarefas de Similaridade Textual Semântica (STS) e a versatilidade do TF-IDF em análises léxicas, combinando-os para potencializar a identificação de BRs similares. O pipeline divide-se em recuperação dos dados, pré-processamento, vetorização, normalização, treinamento das redes neurais e avaliação dos resultados obtidos. Foram avaliados os desempenhos de 56 modelos, aplicando diversas estratégias de modelagem. Esta análise detalhada revela que o uso de vetores completos como features é mais eficaz do que a distância de cosseno. Já a abordagem híbrida proposta demonstra resultados promissores, muitas vezes superando as abordagens individuais. O estudo também realiza um ajuste fino em 14 modelos promissores, testando 168 combinações de hiperparâmetros, com os otimizadores Adam e RMSprop apresentando os melhores desempenhos. As contribuições deste trabalho incluem uma avaliação do desempenho do T5 e do TF-IDF no contexto de BRs, a concepção e validação de uma abordagem híbrida, e a exploração de várias estratégias de modelagem. A pesquisa oferece sugestões para implementações futuras, potencialmente melhorando a eficiência e a eficácia no desenvolvimento e facilitando a alocação de recursos. As descobertas sobre o desempenho do T5 e a eficácia da abordagem híbrida impulsionam pesquisas futuras e aplicações em sistemas de recomendação para gestão de bugs e desenvolvimento de software, ressaltando a importância do seu aprimoramento contínuo. pt_BR
dc.publisher.country Brasil pt_BR
dc.publisher.department Centro de Engenharia Elétrica e Informática - CEEI pt_BR
dc.publisher.program PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO pt_BR
dc.publisher.initials UFCG pt_BR
dc.subject.cnpq Ciência da Computação pt_BR
dc.title Avaliação do Modelo T5 na Detecção de Bug Reports Similares: Uma Abordagem Híbrida com TF-IDF pt_BR
dc.date.issued 2024-11-13
dc.description.abstract In the context of software development, bug reports (BRs) are fundamental for identifying and describing flaws that impact the quality and stability of the final product. The growing volume of BRs in large software projects makes manual identification of similar BRs a time-consuming and error-prone task, leading to reduced efficiency in the development process. Aiming to improve resource allocation, expedite the resolution of recurring problems, and optimize software development, we examined the application of machine learning techniques relevant to these issues. To this end, we utilized the T5 (Text-to-Text Transfer Transformer) model, the TF-IDF (Term Frequency-Inverse Document Frequency) method, and a hybrid approach, leveraging the effectiveness of T5 in Semantic Textual Similarity (STS) tasks and the versatility of TF-IDF in lexical analyses, combining them to enhance the identification of similar BRs. The pipeline is divided into data retrieval, preprocessing, vectorization, normalization, neural network training, and evaluation of obtained results. We evaluated the performance of 56 models, applying various modeling strategies. This detailed analysis reveals that using complete vectors as features is more effective than using cosine distance. The proposed hybrid approach demonstrates promising results, often outperforming individual approaches. The study also performs fine-tuning on 14 promising models, testing 168 hyperparameter combinations, with Adam and RMSprop optimizers showing the best performance. The contributions of this work include an evaluation of T5 and TF-IDF performance in the context of BRs, the conception and validation of a hybrid approach, and the exploration of various modeling strategies. The research offers suggestions for future implementations, potentially improving efficiency and effectiveness in development and facilitating resource allocation. The findings on T5 performance and the effectiveness of the hybrid approach drive future research and applications in recommendation systems for bug management and software development, highlighting the importance of their continuous improvement. pt_BR
dc.identifier.uri http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/41584
dc.date.accessioned 2025-04-11T12:38:28Z
dc.date.available 2025-04-11
dc.date.available 2025-04-11T12:38:28Z
dc.type Dissertação pt_BR
dc.rights Acesso Aberto pt_BR
dc.creator BARBOSA, Iann Carvalho.
dc.publisher Universidade Federal de Campina Grande pt_BR
dc.language por pt_BR
dc.title.alternative Evaluation of the T5 Model in Bug Detection Similar Reports: A Hybrid Approach with TF-IDF pt_BR
dc.identifier.citation BARBOSA, Iann Carvalho. Avaliação do Modelo T5 na Detecção de Bug Reports Similares: Uma Abordagem Híbrida com TF-IDF. 2024. 134 f. Dissertação (Mestrando em Ciência da Computação) – Programa de Pós-Graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Paraíba, Brasil, 2024. pt_BR


Fichier(s) constituant ce document

Ce document figure dans la(les) collection(s) suivante(s)

Afficher la notice abrégée

Chercher dans le dépôt


Recherche avancée

Parcourir

Mon compte