Please use this identifier to cite or link to this item: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/38035
Title: Avaliando a capacidade de LLMS na resolução de questões do POSCOMP.
Other Titles: Evaluating the ability of LLMS to solve POSCOMP questions.
???metadata.dc.creator???: VIEGAS, Cayo Vinicíus.
???metadata.dc.contributor.advisor1???: GHEYI, Rohit Gheyi.
???metadata.dc.contributor.referee1???: GARCIA, Francilene Procópio.
???metadata.dc.contributor.referee2???: BRASILEIRO, Francisco Vilar.
Keywords: Modelos de Linguagem de Grande Escala (LLMs);Exame Nacional para Ingresso na Pós-Graduação em Computação (POSCOMP);NLP;Large-Scale Language Models (LLMs) National Exam for Admission to Postgraduate Studies in Computing (POSCOMP)
Issue Date: 15-May-2024
Publisher: Universidade Federal de Campina Grande
Citation: VIEGAS, Cayo Vinicíus. Avaliando a capacidade de LLMS na resolução de questões do POSCOMP. 2024. 20 f. Artigo (Bacharelado em Ciência da Computação) - Universidade Federal de Campina Grande, Centro de Engenharia Elétrica e Informática, Campina Grande, Paraíba, Brasil, 2024.
???metadata.dc.description.resumo???: Avanços recentes em Modelos de Linguagem de Grande Escala (LLMs) expandiram significativamente as capacidades da inteligência artificial (IA) em tarefas de processamento de linguagem natural. No entanto, seu desempenho em domínios especializados, como a ciência da computação, permanece relativamente pouco explorado. Este estudo investiga se os LLMs podem igualar ou superar o desempenho humano no POSCOMP, um exame brasileiro prestigiado usado para admissões de pós-graduação em ciência da computação. Quatro LLMs-ChatGPT-4, Gemini 1.0 Advanced, Claude 3 Sonnet e Le Chat Mistral Large-foram avaliados nos exames POSCOMP de 2022 e 2023. A avaliação consistiu em duas análises: uma envolvendo interpretação de imagens e outra somente de texto, para determinar a proficiência dos modelos em lidar com questões complexas típicas do exame. Os resultados indicaram que os LLMs tiveram um desempenho significativamente melhor nas questões baseadas em texto, com a interpretação de imagens representando um grande desafio. Por exemplo, na avaliação baseada em imagens, o ChatGPT-4 respondeu corretamente 40 de 70 perguntas, enquanto o Gemini 1.0 Advanced conseguiu apenas 11 respostas corretas. Na avaliação baseada em texto de 2022, o ChatGPT-4 liderou com 57 respostas corretas, seguido por Gemini 1.0 Advanced (49), Le Chat Mistral (48) e Claude 3 Sonnet (44). O exame de 2023 mostrou tendências semelhantes.
Abstract: Recent advancements in Large Language Models (LLMs) have significantly expanded the capabilities of artificial intelligence in natural language processing tasks. However, their performance in specialized domains like computer science remains relatively underexplored. This study investigates whether LLMs can match or surpass human performance on the POSCOMP, a prestigious Brazilian examination used for graduate admissions in computer science. Four LLMs-ChatGPT-4, Gemini 1.0 Advanced, Claude 3 Sonnet, and Le Chat Mistral Large-were evaluated on the 2022 and 2023 POSCOMP exams. The evaluation consisted of two assessments: one involving image interpretation and another text-only format, to determine the models' proficiency in handling complex questions typical of the exam. Results indicated that LLMs performed significantly better on text-based questions, with image interpretation posing a major challenge. For instance, in the image-based assessment, ChatGPT-4 answered 40 out of 70 questions correctly, while Gemini 1.0 Advanced managed only 11 correct answers. In the text-based assessment of 2022, ChatGPT-4 led with 57 correct answers, followed by Gemini 1.0 Advanced (49), Le Chat Mistral (48), and Claude 3 Sonnet (44). The 2023 exam showed similar trends.
Keywords: Modelos de Linguagem de Grande Escala (LLMs)
Exame Nacional para Ingresso na Pós-Graduação em Computação (POSCOMP)
NLP
Large-Scale Language Models (LLMs) National Exam for Admission to Postgraduate Studies in Computing (POSCOMP)
???metadata.dc.subject.cnpq???: Ciência da Computação
URI: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/38035
Appears in Collections:Trabalho de Conclusão de Curso - Artigo - Ciência da Computação

Files in This Item:
File Description SizeFormat 
CAYO VINICIUS VIEGAS-ARTIGO-CIÊNCIA DA COMPUTAÇÃO-CEEI (2024).pdf1.69 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.