Avaliando a capacidade de LLMS na resolução de questões do POSCOMP.

Accueil de DSpace
→
Campus Campina Grande | Centro de Engenharia Elétrica e Informática - CEEI
→
CURSOS DE GRADUAÇÃO DO CEEI
→
Curso de Bacharelado em Ciência da Computação
→
Trabalho de Conclusão de Curso - Artigo - Ciência da Computação
→
Voir le document

dc.creator.ID	VIEGAS, C. V.	pt_BR
dc.creator.Lattes	http://lattes.cnpq.br/9064657341820241	pt_BR
dc.contributor.advisor1	GHEYI, Rohit Gheyi.
dc.contributor.advisor1ID	GHEYI, R.	pt_BR
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/2931270888717344	pt_BR
dc.contributor.referee1	GARCIA, Francilene Procópio.
dc.contributor.referee1ID	GARCIA, F. P.	pt_BR
dc.contributor.referee1Lattes	http://lattes.cnpq.br/2911843555711554	pt_BR
dc.contributor.referee2	BRASILEIRO, Francisco Vilar.
dc.contributor.referee2ID	BRASILEIRO, F.	pt_BR
dc.contributor.referee2Lattes	http://lattes.cnpq.br/5957855817378897	pt_BR
dc.description.resumo	Avanços recentes em Modelos de Linguagem de Grande Escala (LLMs) expandiram significativamente as capacidades da inteligência artificial (IA) em tarefas de processamento de linguagem natural. No entanto, seu desempenho em domínios especializados, como a ciência da computação, permanece relativamente pouco explorado. Este estudo investiga se os LLMs podem igualar ou superar o desempenho humano no POSCOMP, um exame brasileiro prestigiado usado para admissões de pós-graduação em ciência da computação. Quatro LLMs-ChatGPT-4, Gemini 1.0 Advanced, Claude 3 Sonnet e Le Chat Mistral Large-foram avaliados nos exames POSCOMP de 2022 e 2023. A avaliação consistiu em duas análises: uma envolvendo interpretação de imagens e outra somente de texto, para determinar a proficiência dos modelos em lidar com questões complexas típicas do exame. Os resultados indicaram que os LLMs tiveram um desempenho significativamente melhor nas questões baseadas em texto, com a interpretação de imagens representando um grande desafio. Por exemplo, na avaliação baseada em imagens, o ChatGPT-4 respondeu corretamente 40 de 70 perguntas, enquanto o Gemini 1.0 Advanced conseguiu apenas 11 respostas corretas. Na avaliação baseada em texto de 2022, o ChatGPT-4 liderou com 57 respostas corretas, seguido por Gemini 1.0 Advanced (49), Le Chat Mistral (48) e Claude 3 Sonnet (44). O exame de 2023 mostrou tendências semelhantes.	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	Centro de Engenharia Elétrica e Informática - CEEI	pt_BR
dc.publisher.initials	UFCG	pt_BR
dc.subject.cnpq	Ciência da Computação	pt_BR
dc.title	Avaliando a capacidade de LLMS na resolução de questões do POSCOMP.	pt_BR
dc.date.issued	2024-05-15
dc.description.abstract	Recent advancements in Large Language Models (LLMs) have significantly expanded the capabilities of artificial intelligence in natural language processing tasks. However, their performance in specialized domains like computer science remains relatively underexplored. This study investigates whether LLMs can match or surpass human performance on the POSCOMP, a prestigious Brazilian examination used for graduate admissions in computer science. Four LLMs-ChatGPT-4, Gemini 1.0 Advanced, Claude 3 Sonnet, and Le Chat Mistral Large-were evaluated on the 2022 and 2023 POSCOMP exams. The evaluation consisted of two assessments: one involving image interpretation and another text-only format, to determine the models' proficiency in handling complex questions typical of the exam. Results indicated that LLMs performed significantly better on text-based questions, with image interpretation posing a major challenge. For instance, in the image-based assessment, ChatGPT-4 answered 40 out of 70 questions correctly, while Gemini 1.0 Advanced managed only 11 correct answers. In the text-based assessment of 2022, ChatGPT-4 led with 57 correct answers, followed by Gemini 1.0 Advanced (49), Le Chat Mistral (48), and Claude 3 Sonnet (44). The 2023 exam showed similar trends.	pt_BR
dc.identifier.uri	http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/38035
dc.date.accessioned	2024-09-25T19:11:37Z
dc.date.available	2024-09-25
dc.date.available	2024-09-25T19:11:37Z
dc.type	Trabalho de Conclusão de Curso	pt_BR
dc.subject	Modelos de Linguagem de Grande Escala (LLMs)	pt_BR
dc.subject	Exame Nacional para Ingresso na Pós-Graduação em Computação (POSCOMP)	pt_BR
dc.subject	NLP	pt_BR
dc.subject	Large-Scale Language Models (LLMs) National Exam for Admission to Postgraduate Studies in Computing (POSCOMP)	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.creator	VIEGAS, Cayo Vinicíus.
dc.publisher	Universidade Federal de Campina Grande	pt_BR
dc.language	por	pt_BR
dc.title.alternative	Evaluating the ability of LLMS to solve POSCOMP questions.	pt_BR
dc.identifier.citation	VIEGAS, Cayo Vinicíus. Avaliando a capacidade de LLMS na resolução de questões do POSCOMP. 2024. 20 f. Artigo (Bacharelado em Ciência da Computação) - Universidade Federal de Campina Grande, Centro de Engenharia Elétrica e Informática, Campina Grande, Paraíba, Brasil, 2024.	pt_BR