Utilizando modelos de linguagem grandes para classificação de atos do diário oficial da união no domínio tributário.

Accueil de DSpace
→
Campus Campina Grande | Centro de Engenharia Elétrica e Informática - CEEI
→
PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO
→
Mestrado em Ciência da Computação.
→
Voir le document

dc.creator.ID	CUNHA, M. Q.	pt_BR
dc.creator.Lattes	http://lattes.cnpq.br/6398825826705311	pt_BR
dc.contributor.advisor1	BAPTISTA, Cláudio de Souza.
dc.contributor.advisor1ID	BAPTISTA, C. S.	pt_BR
dc.contributor.advisor1ID	DE SOUZA BAPTISTA, CLÁUDIO.	pt_BR
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/0104124422364023	pt_BR
dc.contributor.referee1	ARAÚJO, Joseana Macêdo Fechine Régis de.
dc.contributor.referee1ID	FECHINE, J. M.	pt_BR
dc.contributor.referee1ID	ARAÚJO, J.M.F.R.	pt_BR
dc.contributor.referee1ID	ARAÚJO, JOSEANA M. F. R.	pt_BR
dc.contributor.referee1Lattes	http://lattes.cnpq.br/7179691582151907	pt_BR
dc.contributor.referee2	ALMEIDA, João Dallyson Sousa de.
dc.contributor.referee2ID	ALMEIDA, J. D. S.	pt_BR
dc.contributor.referee2ID	SOUSA DE ALMEIDA, JOÃO DALLYSON.	pt_BR
dc.contributor.referee2Lattes	http://lattes.cnpq.br/6047330108382641	pt_BR
dc.contributor.referee3	BARBOSA, Luciano de Andrade.
dc.contributor.referee3ID	Barbosa, L. A.	pt_BR
dc.contributor.referee3Lattes	http://lattes.cnpq.br/7113249247656195	pt_BR
dc.description.resumo	A Ciência Jurídica destaca-se como um campo promissor para o Processamento de Linguagem Natural, contendo informações relevantes em diversos domínios que impactam a sociedade. O presente estudo concentra-se na identificação de publicações tributárias no Diário Oficial da União (DOU) por meio de uma abordagem de classificação de texto. Durante a análise do contexto tributário no DOU, evidenciou-se o desafio de lidar com o contexto desbalanceado, além da necessidade da criação de um conjunto de dados anotado focado no domínio tributário, tendo sido empregada uma estratégia de anotação automática de registros. A utilização de Modelos de Linguagem Grandes (do inglês, Large Language Models, ou LLMs), baseados em transformers, nos experimentos conduzidos destacou a eficácia dessa abordagem na classificação de dados tributários, mesmo diante dos desafios identificados. A partir dos resultados obtidos, observou-se que manter o desbalanceamento no conjunto de dados de treinamento implicou em melhores resultados para o cenário em questão. Além disso, os resultados também indicam que os LLMs com arquitetura encoder continuam sendo uma opção eficiente, proporcionando rapidez e compatibilidade com hardware de uso geral. Esses modelos mantêm sua eficácia, mesmo em meio à tendência de preferência por LLMs com arquitetura decoder com um número cada vez maior de parâmetros, especialmente em cenários com limitações de recurso de hardware.	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	Centro de Engenharia Elétrica e Informática - CEEI
dc.publisher.program	PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO	pt_BR
dc.publisher.initials	UFCG	pt_BR
dc.subject.cnpq	Ciência da Computação	pt_BR
dc.title	Utilizando modelos de linguagem grandes para classificação de atos do diário oficial da união no domínio tributário.	pt_BR
dc.date.issued	2024-02-19
dc.description.abstract	The Legal domain stands as a promising application field for Natural Language Processing. Official Journals contain exceptionally relevant information across various legal subdomains, with significant implications for both public and private sectors. This study used a text classification approach to identify tax-related publications within the Brazilian Official Journal. While analyzing the tax-related context, we addressed the challenge of highly imbalanced data. Our investigation culminated in the creation of an automatically annotated dataset. Using transformer-based Large Language Models (LLMs) in our experiments underscored their suitability for tax-related data classification within the Brazilian Official Journal. Also, our study generated evidence that inserting imbalance into the training set can lead to better results in highly imbalanced contexts. Findings from our study indicate that encoder LLMs remain an efficient choice, offering speed and compatibility with consumer-grade hardware. These models maintain effectiveness even as the prevailing trend leans towards large decoder LLMs.	pt_BR
dc.identifier.uri	http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/36228
dc.date.accessioned	2024-06-20T20:35:42Z
dc.date.available	2024-06-20
dc.date.available	2024-06-20T20:35:42Z
dc.type	Dissertação	pt_BR
dc.subject	Processamento de linguagem natural	pt_BR
dc.subject	Classificação de texto	pt_BR
dc.subject	Modelos de linguagem grandes	pt_BR
dc.subject	Dados desbalanceados	pt_BR
dc.subject	Domínio jurídico	pt_BR
dc.subject	Diários oficiais	pt_BR
dc.subject	Natural language processing	pt_BR
dc.subject	Text classification	pt_BR
dc.subject	Models large language	pt_BR
dc.subject	Imbalanced data	pt_BR
dc.subject	Legal domain	pt_BR
dc.subject	Official diaries	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.creator	CUNHA, Mateus Queiroz.
dc.publisher	Universidade Federal de Campina Grande	pt_BR
dc.language	por	pt_BR
dc.title.alternative	Using large language models for act classification of the official gazette of the union in the tax domain.	pt_BR
dc.title.alternative	Uso de grandes modelos de lenguaje para la clasificación de actos del boletín oficial de la unión en el ámbito fiscal.	pt_BR
dc.identifier.citation	CUNHA, Mateus Queiroz. Utilizando modelos de linguagem grandes para classificação de atos do Diário Oficial da União no domínio tributário. 2024. 165 fl. Dissertação (Mestrado em Ciência da Computação) – Programa de Pós-Graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Paraíba, Brasil, 2024. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/36228	pt_BR
dc.description.resumen	Las Ciencias Jurídicas destacan como un campo prometedor para el Procesamiento del Lenguaje Natural, que contiene información relevante en diversas áreas que impactan a la sociedad. Este estudio se centra en identificar publicaciones tributarias en el Diário Oficial Federal (DOU) a través de un enfoque de clasificación de textos. Durante el análisis del contexto tributario en el DOU, el desafío de abordar el contexto desequilibrado, además de la necesidad de crear un conjunto de datos anotados centrados en el dominio fiscal, utilizando una estrategia de anotación automática de registros. El uso de modelos de lenguaje grandes (o LLMs), basados en transformadores, en los experimentos realizados resaltaron la efectividad de este enfoque para clasificar los datos tributarios, incluso frente a los desafíos identificados. De los resultados obtenidos se observó que mantener el desequilibrio en el conjunto de los datos de entrenamiento dio como resultado mejores resultados para el escenario en cuestión. Además Además, los resultados también indican que los LLM con arquitectura de codificador continúan siendo una opción eficiente que proporciona velocidad y compatibilidad con hardware de uso general. Estos modelos siguen siendo efectivos incluso en medio de la tendencia hacia la preferencia por los LLM. con arquitectura decodificadora con un número cada vez mayor de parámetros, especialmente en escenarios con limitaciones de recursos de hardware.	pt_BR