DSpace/Manakin Repository

Avaliando a capacidade de LLMS na resolução de questões do POSCOMP.

Mostrar registro simples

dc.creator.ID VIEGAS, C. V. pt_BR
dc.creator.Lattes http://lattes.cnpq.br/9064657341820241 pt_BR
dc.contributor.advisor1 GHEYI, Rohit Gheyi.
dc.contributor.advisor1ID GHEYI, R. pt_BR
dc.contributor.advisor1Lattes http://lattes.cnpq.br/2931270888717344 pt_BR
dc.contributor.referee1 GARCIA, Francilene Procópio.
dc.contributor.referee1ID GARCIA, F. P. pt_BR
dc.contributor.referee1Lattes http://lattes.cnpq.br/2911843555711554 pt_BR
dc.contributor.referee2 BRASILEIRO, Francisco Vilar.
dc.contributor.referee2ID BRASILEIRO, F. pt_BR
dc.contributor.referee2Lattes http://lattes.cnpq.br/5957855817378897 pt_BR
dc.description.resumo Avanços recentes em Modelos de Linguagem de Grande Escala (LLMs) expandiram significativamente as capacidades da inteligência artificial (IA) em tarefas de processamento de linguagem natural. No entanto, seu desempenho em domínios especializados, como a ciência da computação, permanece relativamente pouco explorado. Este estudo investiga se os LLMs podem igualar ou superar o desempenho humano no POSCOMP, um exame brasileiro prestigiado usado para admissões de pós-graduação em ciência da computação. Quatro LLMs-ChatGPT-4, Gemini 1.0 Advanced, Claude 3 Sonnet e Le Chat Mistral Large-foram avaliados nos exames POSCOMP de 2022 e 2023. A avaliação consistiu em duas análises: uma envolvendo interpretação de imagens e outra somente de texto, para determinar a proficiência dos modelos em lidar com questões complexas típicas do exame. Os resultados indicaram que os LLMs tiveram um desempenho significativamente melhor nas questões baseadas em texto, com a interpretação de imagens representando um grande desafio. Por exemplo, na avaliação baseada em imagens, o ChatGPT-4 respondeu corretamente 40 de 70 perguntas, enquanto o Gemini 1.0 Advanced conseguiu apenas 11 respostas corretas. Na avaliação baseada em texto de 2022, o ChatGPT-4 liderou com 57 respostas corretas, seguido por Gemini 1.0 Advanced (49), Le Chat Mistral (48) e Claude 3 Sonnet (44). O exame de 2023 mostrou tendências semelhantes. pt_BR
dc.publisher.country Brasil pt_BR
dc.publisher.department Centro de Engenharia Elétrica e Informática - CEEI pt_BR
dc.publisher.initials UFCG pt_BR
dc.subject.cnpq Ciência da Computação pt_BR
dc.title Avaliando a capacidade de LLMS na resolução de questões do POSCOMP. pt_BR
dc.date.issued 2024-05-15
dc.description.abstract Recent advancements in Large Language Models (LLMs) have significantly expanded the capabilities of artificial intelligence in natural language processing tasks. However, their performance in specialized domains like computer science remains relatively underexplored. This study investigates whether LLMs can match or surpass human performance on the POSCOMP, a prestigious Brazilian examination used for graduate admissions in computer science. Four LLMs-ChatGPT-4, Gemini 1.0 Advanced, Claude 3 Sonnet, and Le Chat Mistral Large-were evaluated on the 2022 and 2023 POSCOMP exams. The evaluation consisted of two assessments: one involving image interpretation and another text-only format, to determine the models' proficiency in handling complex questions typical of the exam. Results indicated that LLMs performed significantly better on text-based questions, with image interpretation posing a major challenge. For instance, in the image-based assessment, ChatGPT-4 answered 40 out of 70 questions correctly, while Gemini 1.0 Advanced managed only 11 correct answers. In the text-based assessment of 2022, ChatGPT-4 led with 57 correct answers, followed by Gemini 1.0 Advanced (49), Le Chat Mistral (48), and Claude 3 Sonnet (44). The 2023 exam showed similar trends. pt_BR
dc.identifier.uri http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/38035
dc.date.accessioned 2024-09-25T19:11:37Z
dc.date.available 2024-09-25
dc.date.available 2024-09-25T19:11:37Z
dc.type Trabalho de Conclusão de Curso pt_BR
dc.subject Modelos de Linguagem de Grande Escala (LLMs) pt_BR
dc.subject Exame Nacional para Ingresso na Pós-Graduação em Computação (POSCOMP) pt_BR
dc.subject NLP pt_BR
dc.subject Large-Scale Language Models (LLMs) National Exam for Admission to Postgraduate Studies in Computing (POSCOMP) pt_BR
dc.rights Acesso Aberto pt_BR
dc.creator VIEGAS, Cayo Vinicíus.
dc.publisher Universidade Federal de Campina Grande pt_BR
dc.language por pt_BR
dc.title.alternative Evaluating the ability of LLMS to solve POSCOMP questions. pt_BR
dc.identifier.citation VIEGAS, Cayo Vinicíus. Avaliando a capacidade de LLMS na resolução de questões do POSCOMP. 2024. 20 f. Artigo (Bacharelado em Ciência da Computação) - Universidade Federal de Campina Grande, Centro de Engenharia Elétrica e Informática, Campina Grande, Paraíba, Brasil, 2024. pt_BR


Arquivos deste item

Este item aparece na(s) seguinte(s) coleção(s)

Mostrar registro simples

Buscar DSpace


Busca avançada

Navegar

Minha conta