dc.creator.ID |
SOUSA, H. N. F. |
pt_BR |
dc.creator.Lattes |
http://lattes.cnpq.br/2201042413775848 |
pt_BR |
dc.contributor.advisor1 |
SANTOS, Danilo Freire de Souza. |
|
dc.contributor.advisor1ID |
Danilo F. S. Santos. |
pt_BR |
dc.contributor.advisor1Lattes |
http://lattes.cnpq.br/9890987649970131 |
pt_BR |
dc.contributor.advisor-co1 |
PERKUSICH, Mirko Barbosa. |
|
dc.contributor.advisor-co1ID |
PERKUSICH, M. B. |
pt_BR |
dc.contributor.advisor-co1Lattes |
http://lattes.cnpq.br/3250186213608951 |
pt_BR |
dc.contributor.referee1 |
GORGÔNIO, Kyller Costa. |
|
dc.contributor.referee2 |
ALBUQUERQUE, Danyllo Wagner. |
|
dc.description.resumo |
OBehavior-Driven Development (BDD) é essencial no desenvolvimento de software mod
erno, com a linguagem Gherkin sendo crucial para especificar cenários de teste. No entanto,
a criação manual desses cenários é demorada e propensa a erros. Os Grandes Modelos de
Linguagem (LLM) surgem como uma solução inovadora para automatizar e otimizar esse
processo, oferecendo uma alternativa mais eficiente e confiável.
Neste estudo, investigamos a eficácia de seis LLM (GPT-3.5 Turbo, GPT-4 Turbo, GPT
4o Mini, LLaMA 3, Phi-3 e Gemini) na geração automatizada de cenários Gherkin a partir
de 1.286 cenários de teste reais. Aplicamos diferentes técnicas de prompting, como zero
shot, one-shot e few-shot, para avaliar a qualidade e a consistência das saídas produzidas. O
objetivo foi identificar a técnica e o modelo mais adequados para a criação de cenários BDD.
Para conduzir a análise, foram selecionadas medidas de avaliação de qualidade e variabil
idade, que foram correlacionadas com avaliações qualitativas realizadas por especialistas.
Isso garantiu a escolha de métricas representativas que refletem adequadamente a qualidade
dos cenários gerados. Além disso, análises estatísticas foram realizadas para verificar a ex
istência de diferenças significativas entre os modelos e técnicas aplicadas, assegurando a
robustez metodológica do estudo.
A análise de variabilidade apontou que a consistência dos modelos depende da técnica
utilizada: em zero-shot, o Gemini foi mais consistente, enquanto LLaMA 3 e GPT-3.5 Turbo
apresentaram maior variabilidade. Em one-shot, GPT-4o Mini e GPT-4 Turbo se destacaram
pela estabilidade, ao passo que em few-shot, GPT-4o Mini e LLaMA 3 foram os mais es
táveis. A análise de desempenho revelou que a técnica zero-shot foi a mais eficaz em diversos
contextos, especialmente quando aplicada ao modelo Gemini. No entanto, análises estatís
ticas, como o teste de Kruskal-Wallis, demonstraram que as diferenças observadas entre os
modelos não foram estatisticamente significativas. |
pt_BR |
dc.publisher.country |
Brasil |
pt_BR |
dc.publisher.department |
Centro de Engenharia Elétrica e Informática - CEEI |
pt_BR |
dc.publisher.program |
PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO |
pt_BR |
dc.publisher.initials |
UFCG |
pt_BR |
dc.subject.cnpq |
Computação. |
pt_BR |
dc.subject.cnpq |
Informática. |
pt_BR |
dc.title |
Um experimento comparativo da eficácia de diferentes LLM na geração de cenários Gherkin. |
pt_BR |
dc.date.issued |
2025-01-31 |
|
dc.description.abstract |
Behavior-Driven Development (BDD) is essential in modern software development, with the
Gherkin language playing a crucial role in specifying test scenarios. However, the manual
creation of these scenarios is time-consuming and error-prone. Large Language Models
(LLMs) emerge as an innovative solution to automate and optimize this process, offering a
more efficient and reliable alternative.
In this study, we investigated the effectiveness of six LLMs (GPT-3.5 Turbo, GPT-4
Turbo, GPT-4o Mini, LLaMA 3, Phi-3, and Gemini) in the automated generation of Gherkin
scenarios from 1,286 real-world test scenarios. We applied different prompting techniques,
such as zero-shot, one-shot, and few-shot, to evaluate the quality and consistency of the gen
erated outputs. The goal was to identify the most suitable technique and model for creating
BDDscenarios.
To conduct the analysis, we selected quality and variability evaluation measures, which
were correlated with qualitative assessments performed by experts. This ensured the choice
of representative metrics that adequately reflect the quality of the generated scenarios. Addi
tionally, statistical analyses were performed to verify the existence of significant differences
between the models and techniques applied, ensuring the methodological robustness of the
study.
The variability analysis indicated that the consistency of the models depends on the tech
nique used: in zero-shot, Gemini was more consistent, while LLaMA 3 and GPT-3.5 Turbo
showed higher variability. In one-shot, GPT-4o Mini and GPT-4 Turbo stood out for their
stability, whereas in few-shot, GPT-4o Mini and LLaMA 3 were the most stable. The per
formance analysis revealed that the zero-shot technique was the most effective in various
contexts, especially when applied to the Gemini model. However, statistical analyses, such
as the Kruskal-Wallis test, demonstrated that the observed differences between the models
were not statistically significant. |
pt_BR |
dc.identifier.uri |
http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/41048 |
|
dc.date.accessioned |
2025-03-14T12:25:35Z |
|
dc.date.available |
2025-03-14 |
|
dc.date.available |
2025-03-14T12:25:35Z |
|
dc.type |
Dissertação |
pt_BR |
dc.subject |
Behavior-Driven Development (BDD) |
pt_BR |
dc.subject |
Gherkin |
pt_BR |
dc.subject |
Modelos de linguagem de grande escala |
pt_BR |
dc.subject |
Geração automatizada de cenários |
pt_BR |
dc.subject |
Avaliação de qualidade |
pt_BR |
dc.subject |
Análise de variabilidade |
pt_BR |
dc.subject |
Large-scale language models |
pt_BR |
dc.subject |
Automated scenario generation |
pt_BR |
dc.subject |
Quality assessment |
pt_BR |
dc.subject |
Variability analysis |
pt_BR |
dc.rights |
Acesso Aberto |
pt_BR |
dc.creator |
SOUSA, Hiago Natan Fernandes de. |
|
dc.publisher |
Universidade Federal de Campina Grande |
pt_BR |
dc.language |
por |
pt_BR |
dc.title.alternative |
A comparative experiment of the effectiveness of different LLM in generating Gherkin scenarios. |
pt_BR |
dc.identifier.citation |
SOUSA, Hiago Natan Fernandes de. Um experimento comparativo da eficácia de diferentes LLM na geração de cenários Gherkin. 2025. 141 f. Dissertação (Mestrado em Computação) – Programa de Pós-Graduação em Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Paraíba, Brasil, 2025. |
pt_BR |