Avaliação de LLMS na resolução de questões do ENEM.

Please use this identifier to cite or link to this item: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/38059

Title:	Avaliação de LLMS na resolução de questões do ENEM.
Other Titles:	LLMS assessment in solving ENEM questions.
???metadata.dc.creator???:	RAPOSO, Lucas Brasileiro.
???metadata.dc.contributor.advisor1???:	MORAIS, Fábio Jorge Almeida.
???metadata.dc.contributor.referee1???:	PIRES, Carlos Eduardo Santos.
???metadata.dc.contributor.referee2???:	BRASILEIRO, Francisco Vilar.
Keywords:	LLMs;Grandes Modelos de Linguagem;ENEM;ChatGPT;GEMINI;Llama;Large Language Models
Issue Date:	15-May-2024
Publisher:	Universidade Federal de Campina Grande
Citation:	RAPOSO, Lucas Brasileiro. Avaliação de LLMS na resolução de questões do ENEM. 2024. 12 f. Artigo (Bacharelado em Ciência da Computação) - Universidade Federal de Campina Grande, Centro de Engenharia Elétrica e Informática, Campina Grande, Paraíba, Brasil, 2024. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/38059
???metadata.dc.description.resumo???:	Grandes Modelos de Linguagem (LLMs do inglês, Large Language Models) surgiram como uma quebra de paradigma no uso da Inteligência Artificial (IA) e são amplamente usados em diferentes áreas. Um dos maiores responsáveis pela popularização desse termo é o ChatGPT, desenvolvido pela OpenAI. A partir da ascensão desse, outras empresas, como a Meta e a Google, desenvolveram seus próprios modelos como alternativas ao GPT. Essas ferramentas se apresentam como solução de problemas nos mais variados contextos. Entretanto, pouca atenção é voltada para medir a capacidade de corretude e eficiência de suas respostas. Somado a isso, a maioria dos estudos neste âmbito, se prendem ao contexto da língua inglesa, sem que os modelos sejam efetivamente testados em cenários globalizados. Logo, este estudo propõe submeter os sistemas da Meta, da OpenAI e da Google à avaliações de múltipla escolha objetivas sobre conteúdos de nível médio, por meio das provas do Exame Nacional do Ensino Médio (ENEM). Após colher as respostas dos modelos, análises foram realizadas, comparando desempenho, entre cada uma delas e com médias dos alunos brasileiros, considerando quantidade de acertos por prova. Então, surpreendentemente, este trabalho mostrou que todos os três modelos desempenharam melhor em áreas mais “subjetivas” que em áreas objetivas, indo contra o senso comum.
Abstract:	Large Language Models (LLMs) emerged as a paradigm shift in the use of Artificial Intelligence (AI) and are widely used in different areas. One of the most popularized models of this term is ChatGPT, developed by OpenAI. Since its rise, other companies, such as Meta and Google, have developed their own models as alternatives to GPT. These tools are presented as problem solving tools in a wide variety of contexts. However, little attention has been paid to measuring the correctness and efficiency of their responses. In addition, most studies in this area are limited to the English language context, without effectively testing the models in globalized scenarios. Therefore, this study proposes to subject Meta, OpenAI and Google systems to objective multiple choice assessments on high school level content, using the National High School Exam (ENEM) tests. After collecting the responses from the models, analyses were performed, comparing the performance of each model and the averages of Brazilian students, considering the number of correct answers per test. Surprisin gly, this work showed that all three models performed better in more “subjective” areas than in objective areas, going against common sense.
Keywords:	LLMs Grandes Modelos de Linguagem ENEM ChatGPT GEMINI Llama Large Language Models
???metadata.dc.subject.cnpq???:	Ciência da Computação
URI:	http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/38059
Appears in Collections:	Trabalho de Conclusão de Curso - Artigo - Ciência da Computação

Files in This Item:

File	Description	Size	Format
LUCAS BRASILEIRO RAPOSO-ARTIGO-CEEI-CIÊNCIA DA COMPUTAÇÃO (2024).pdf		337.66 kB	Adobe PDF	View/Open

Show full item record