dc.creator.ID |
ALMEIDA, J. V. S. |
pt_BR |
dc.creator.Lattes |
http://lattes.cnpq.br/0668664022330187 |
pt_BR |
dc.contributor.advisor1 |
MONTEIRO, João Arthur Brunet. |
|
dc.contributor.advisor1ID |
BRUNET, J. A. M. |
pt_BR |
dc.contributor.advisor1Lattes |
http://lattes.cnpq.br/7892247821251194 |
pt_BR |
dc.contributor.referee1 |
MASSONI, Tiago Lima. |
|
dc.contributor.referee2 |
TEIXEIRA , Leopoldo Motta. |
|
dc.description.resumo |
A revisão de código em projetos de código aberto é uma prática comum e essencial no desenvolvimento
de software, visando garantir a qualidade do código-fonte e detectar problemas
na implementação. No entanto, embora essencial, essa prática manual pode se tornar dispendiosa
e suscetível a erros, especialmente em projetos maiores e colaborativos. Diante deste
cenário, investigamos como o Large Language Model Meta AI (LLaMA-2 13B) pode contribuir
especificamente na revisão de code smells, buscando compreender suas capacidades e
limitações no ciclo de desenvolvimento. Nossa investigação baseou-se em dados extraídos de
projetos de código aberto consolidados como Neovim, Keycloak e gRPC. Partindo de 19.149
comentários distribuídos em 6.365 Pull Requests, aplicamos uma abordagem híbrida que consistiu
em filtragem sistemática por palavras-chave seguida de análise manual dos comentários,
resultando em um dataset focado em code smells de 3.023 comentários. Após desenvolver um
prompt específico para orientar as revisões do modelo, selecionamos uma amostra estratificada
de 637 comentários (21,10% do dataset) para uma avaliação detalhada. Os resultados revelaram
que 91,73% das revisões do modelo apresentaram baixa similaridade com as revisões
humanas. Nossa análise qualitativa identificou que em 72% das intervenções o modelo diverge
do foco dos revisores humanos, embora forneça análises tecnicamente abrangentes em 48,3%
dos casos. Os resultados sugerem que, embora o LLaMA-2 13B seja capaz de realizar análises
relevantes, suas limitações de contexto resultam em revisões que frequentemente divergem do
foco dos revisores humanos. Por fim, concluímos que o modelo pode ser mais efetivo quando
utilizado como ferramenta complementar à revisão humana, não como substituto.
Palavras-chave: Revisão de código; code smells; LLaMA-2 13B; Pull Requests; análise sistemática;
prompt. |
pt_BR |
dc.publisher.country |
Brasil |
pt_BR |
dc.publisher.department |
Centro de Engenharia Elétrica e Informática - CEEI |
pt_BR |
dc.publisher.program |
PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO |
pt_BR |
dc.publisher.initials |
UFCG |
pt_BR |
dc.subject.cnpq |
Ciência da Computação |
pt_BR |
dc.title |
Uma investigação sobre como LLaMA-2 13B revisa código-fonte com ênfase em smell |
pt_BR |
dc.date.issued |
2025-04-11 |
|
dc.description.abstract |
Code review in open source projects is a common and essential practice in software development,
aiming to ensure source code quality and detect implementation issues. However,
although essential, this manual practice can become costly and error-prone, especially in larger
and collaborative projects. In this context, we investigate how the Large Language Model
Meta AI (LLaMA-2 13B) can specifically contribute to the review of code smells, seeking to
understand its capabilities and limitations in the development cycle. Our investigation was based
on data extracted from consolidated open source projects such as Neovim, Keycloak, and
gRPC. Starting from 19,149 comments distributed across 6,365 Pull Requests, we applied
a hybrid approach consisting of systematic keyword filtering followed by manual analysis of
comments, resulting in a code smell-focused dataset of 3,023 comments. After developing a
specific prompt to guide the model’s reviews, we selected a stratified sample of 637 comments
(21.10% of the dataset) for detailed evaluation. The results revealed that 91.73% of the model’s
reviews showed low similarity to human reviews. Our qualitative analysis identified that
in 72% of interventions the model diverges from human reviewers’ focus, although it provides
technically comprehensive analyses in 48.3% of cases. The results suggest that, while LLaMA-
2 13B is capable of performing relevant analyses, its context limitations result in reviews that
frequently diverge from human reviewers’ focus. Finally, we conclude that the model can be
more effective when used as a complementary tool to human review, not as a substitute.
Keywords: Code review; code smells; LLaMA-2 13B; Pull Requests; systematic analysis;
prompt. |
pt_BR |
dc.identifier.uri |
http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/42073 |
|
dc.date.accessioned |
2025-06-03T12:09:33Z |
|
dc.date.available |
2025-06-03 |
|
dc.date.available |
2025-06-03T12:09:33Z |
|
dc.type |
Dissertação |
pt_BR |
dc.subject |
Prompt |
pt_BR |
dc.subject |
Análise sistemática |
pt_BR |
dc.subject |
Pull Requests |
pt_BR |
dc.subject |
LLaMA-2 13B |
pt_BR |
dc.subject |
Code smells |
pt_BR |
dc.subject |
Revisão de código |
pt_BR |
dc.subject |
Systematic analysis |
pt_BR |
dc.subject |
Pull Requests |
pt_BR |
dc.subject |
LLaMA-2 13B |
pt_BR |
dc.subject |
Code smells |
pt_BR |
dc.subject |
Code review |
pt_BR |
dc.rights |
Acesso Aberto |
pt_BR |
dc.creator |
ALMEIDA, João Victor Soares de. |
|
dc.publisher |
Universidade Federal de Campina Grande |
pt_BR |
dc.language |
por |
pt_BR |
dc.title.alternative |
An investigation into how LLaMA-2 13B reviews source code with an emphasis on smell |
pt_BR |
dc.identifier.citation |
ALMEIDA, João Victor Soares de. Uma investigação sobre como LLaMA-2 13B revisa código-fonte com ênfase em smell. 2025. 76 f. Dissertação (Mestrado em Ciência da Computação) – Programa de Pós Graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Paraíba, Brasil, 2025. |
pt_BR |