dc.creator.ID |
BARBOSA, I. C. |
pt_BR |
dc.creator.Lattes |
http://lattes.cnpq.br/2396932829533767 |
pt_BR |
dc.contributor.advisor1 |
MONTEIRO, João Arthur Brunet. |
|
dc.contributor.advisor1ID |
BRUNET, J. A. M. |
pt_BR |
dc.contributor.advisor1Lattes |
http://lattes.cnpq.br/7892247821251194 |
pt_BR |
dc.contributor.advisor2 |
RAMALHO, Franklin de Souza. |
|
dc.contributor.advisor2ID |
Ramalho, F. |
pt_BR |
dc.contributor.advisor2Lattes |
http://lattes.cnpq.br/2469816352786812 |
pt_BR |
dc.contributor.referee1 |
MASSONI, Tiago Lima. |
|
dc.contributor.referee2 |
KULESZA, Uira. |
|
dc.description.resumo |
No contexto do desenvolvimento de software, bug reports (BRs) são fundamentais para
identificar e descrever falhas que impactam a qualidade e estabilidade do produto final. O
crescente volume de BRs em grandes projetos de software torna a identificação manual de
BRs similares uma tarefa demorada e propensa a erros, levando a uma menor eficiência no
processo de desenvolvimento. Visando melhorar a alocação de recursos, agilizar a resolução
de problemas recorrentes e otimizar o desenvolvimento de software, examinamos a aplicação
de técnicas de aprendizagem de máquina relevantes aos problemas. Para tal, foi utilizado o
modelo T5 (Text-to-Text Transfer Transformer), o método TF-IDF (Term Frequency-Inverse
Document Frequency) e uma abordagem híbrida, aproveitando a eficácia do T5 em tarefas
de Similaridade Textual Semântica (STS) e a versatilidade do TF-IDF em análises léxicas,
combinando-os para potencializar a identificação de BRs similares. O pipeline divide-se
em recuperação dos dados, pré-processamento, vetorização, normalização, treinamento das
redes neurais e avaliação dos resultados obtidos. Foram avaliados os desempenhos de 56
modelos, aplicando diversas estratégias de modelagem. Esta análise detalhada revela que
o uso de vetores completos como features é mais eficaz do que a distância de cosseno. Já
a abordagem híbrida proposta demonstra resultados promissores, muitas vezes superando
as abordagens individuais. O estudo também realiza um ajuste fino em 14 modelos promissores,
testando 168 combinações de hiperparâmetros, com os otimizadores Adam e RMSprop
apresentando os melhores desempenhos. As contribuições deste trabalho incluem uma avaliação
do desempenho do T5 e do TF-IDF no contexto de BRs, a concepção e validação de
uma abordagem híbrida, e a exploração de várias estratégias de modelagem. A pesquisa
oferece sugestões para implementações futuras, potencialmente melhorando a eficiência e a
eficácia no desenvolvimento e facilitando a alocação de recursos. As descobertas sobre o
desempenho do T5 e a eficácia da abordagem híbrida impulsionam pesquisas futuras e aplicações
em sistemas de recomendação para gestão de bugs e desenvolvimento de software,
ressaltando a importância do seu aprimoramento contínuo. |
pt_BR |
dc.publisher.country |
Brasil |
pt_BR |
dc.publisher.department |
Centro de Engenharia Elétrica e Informática - CEEI |
pt_BR |
dc.publisher.program |
PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO |
pt_BR |
dc.publisher.initials |
UFCG |
pt_BR |
dc.subject.cnpq |
Ciência da Computação |
pt_BR |
dc.title |
Avaliação do Modelo T5 na Detecção de Bug Reports Similares: Uma Abordagem Híbrida com TF-IDF |
pt_BR |
dc.date.issued |
2024-11-13 |
|
dc.description.abstract |
In the context of software development, bug reports (BRs) are fundamental for identifying
and describing flaws that impact the quality and stability of the final product. The growing
volume of BRs in large software projects makes manual identification of similar BRs
a time-consuming and error-prone task, leading to reduced efficiency in the development
process. Aiming to improve resource allocation, expedite the resolution of recurring problems,
and optimize software development, we examined the application of machine learning
techniques relevant to these issues. To this end, we utilized the T5 (Text-to-Text Transfer
Transformer) model, the TF-IDF (Term Frequency-Inverse Document Frequency) method,
and a hybrid approach, leveraging the effectiveness of T5 in Semantic Textual Similarity
(STS) tasks and the versatility of TF-IDF in lexical analyses, combining them to enhance
the identification of similar BRs. The pipeline is divided into data retrieval, preprocessing,
vectorization, normalization, neural network training, and evaluation of obtained results. We
evaluated the performance of 56 models, applying various modeling strategies. This detailed
analysis reveals that using complete vectors as features is more effective than using cosine
distance. The proposed hybrid approach demonstrates promising results, often outperforming
individual approaches. The study also performs fine-tuning on 14 promising models,
testing 168 hyperparameter combinations, with Adam and RMSprop optimizers showing the
best performance. The contributions of this work include an evaluation of T5 and TF-IDF
performance in the context of BRs, the conception and validation of a hybrid approach, and
the exploration of various modeling strategies. The research offers suggestions for future
implementations, potentially improving efficiency and effectiveness in development and facilitating
resource allocation. The findings on T5 performance and the effectiveness of the
hybrid approach drive future research and applications in recommendation systems for bug
management and software development, highlighting the importance of their continuous improvement. |
pt_BR |
dc.identifier.uri |
http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/41584 |
|
dc.date.accessioned |
2025-04-11T12:38:28Z |
|
dc.date.available |
2025-04-11 |
|
dc.date.available |
2025-04-11T12:38:28Z |
|
dc.type |
Dissertação |
pt_BR |
dc.rights |
Acesso Aberto |
pt_BR |
dc.creator |
BARBOSA, Iann Carvalho. |
|
dc.publisher |
Universidade Federal de Campina Grande |
pt_BR |
dc.language |
por |
pt_BR |
dc.title.alternative |
Evaluation of the T5 Model in Bug Detection Similar Reports: A Hybrid Approach with TF-IDF |
pt_BR |
dc.identifier.citation |
BARBOSA, Iann Carvalho. Avaliação do Modelo T5 na Detecção de Bug Reports Similares: Uma Abordagem Híbrida com TF-IDF. 2024. 134 f. Dissertação (Mestrando em Ciência da Computação) – Programa de Pós-Graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Paraíba, Brasil, 2024. |
pt_BR |