dc.creator.ID |
CUNHA, M. Q. |
pt_BR |
dc.creator.Lattes |
http://lattes.cnpq.br/6398825826705311 |
pt_BR |
dc.contributor.advisor1 |
BAPTISTA, Cláudio de Souza. |
|
dc.contributor.advisor1ID |
BAPTISTA, C. S. |
pt_BR |
dc.contributor.advisor1ID |
DE SOUZA BAPTISTA, CLÁUDIO. |
pt_BR |
dc.contributor.advisor1Lattes |
http://lattes.cnpq.br/0104124422364023 |
pt_BR |
dc.contributor.referee1 |
ARAÚJO, Joseana Macêdo Fechine Régis de. |
|
dc.contributor.referee1ID |
FECHINE, J. M. |
pt_BR |
dc.contributor.referee1ID |
ARAÚJO, J.M.F.R. |
pt_BR |
dc.contributor.referee1ID |
ARAÚJO, JOSEANA M. F. R. |
pt_BR |
dc.contributor.referee1Lattes |
http://lattes.cnpq.br/7179691582151907 |
pt_BR |
dc.contributor.referee2 |
ALMEIDA, João Dallyson Sousa de. |
|
dc.contributor.referee2ID |
ALMEIDA, J. D. S. |
pt_BR |
dc.contributor.referee2ID |
SOUSA DE ALMEIDA, JOÃO DALLYSON. |
pt_BR |
dc.contributor.referee2Lattes |
http://lattes.cnpq.br/6047330108382641 |
pt_BR |
dc.contributor.referee3 |
BARBOSA, Luciano de Andrade. |
|
dc.contributor.referee3ID |
Barbosa, L. A. |
pt_BR |
dc.contributor.referee3Lattes |
http://lattes.cnpq.br/7113249247656195 |
pt_BR |
dc.description.resumo |
A Ciência Jurídica destaca-se como um campo promissor para o Processamento de Linguagem
Natural, contendo informações relevantes em diversos domínios que impactam a sociedade.
O presente estudo concentra-se na identificação de publicações tributárias no Diário
Oficial da União (DOU) por meio de uma abordagem de classificação de texto. Durante
a análise do contexto tributário no DOU, evidenciou-se o desafio de lidar com o contexto
desbalanceado, além da necessidade da criação de um conjunto de dados anotado focado no
domínio tributário, tendo sido empregada uma estratégia de anotação automática de registros.
A utilização de Modelos de Linguagem Grandes (do inglês, Large Language Models, ou
LLMs), baseados em transformers, nos experimentos conduzidos destacou a eficácia dessa
abordagem na classificação de dados tributários, mesmo diante dos desafios identificados.
A partir dos resultados obtidos, observou-se que manter o desbalanceamento no conjunto
de dados de treinamento implicou em melhores resultados para o cenário em questão. Além
disso, os resultados também indicam que os LLMs com arquitetura encoder continuam sendo
uma opção eficiente, proporcionando rapidez e compatibilidade com hardware de uso geral.
Esses modelos mantêm sua eficácia, mesmo em meio à tendência de preferência por LLMs
com arquitetura decoder com um número cada vez maior de parâmetros, especialmente em
cenários com limitações de recurso de hardware. |
pt_BR |
dc.publisher.country |
Brasil |
pt_BR |
dc.publisher.department |
Centro de Engenharia Elétrica e Informática - CEEI |
|
dc.publisher.program |
PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO |
pt_BR |
dc.publisher.initials |
UFCG |
pt_BR |
dc.subject.cnpq |
Ciência da Computação |
pt_BR |
dc.title |
Utilizando modelos de linguagem grandes para classificação de atos do diário oficial da união no domínio tributário. |
pt_BR |
dc.date.issued |
2024-02-19 |
|
dc.description.abstract |
The Legal domain stands as a promising application field for Natural Language Processing.
Official Journals contain exceptionally relevant information across various legal subdomains,
with significant implications for both public and private sectors. This study used a text classification
approach to identify tax-related publications within the Brazilian Official Journal.
While analyzing the tax-related context, we addressed the challenge of highly imbalanced
data. Our investigation culminated in the creation of an automatically annotated dataset.
Using transformer-based Large Language Models (LLMs) in our experiments underscored
their suitability for tax-related data classification within the Brazilian Official Journal. Also,
our study generated evidence that inserting imbalance into the training set can lead to better
results in highly imbalanced contexts. Findings from our study indicate that encoder LLMs
remain an efficient choice, offering speed and compatibility with consumer-grade hardware.
These models maintain effectiveness even as the prevailing trend leans towards large decoder
LLMs. |
pt_BR |
dc.identifier.uri |
http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/36228 |
|
dc.date.accessioned |
2024-06-20T20:35:42Z |
|
dc.date.available |
2024-06-20 |
|
dc.date.available |
2024-06-20T20:35:42Z |
|
dc.type |
Dissertação |
pt_BR |
dc.subject |
Processamento de linguagem natural |
pt_BR |
dc.subject |
Classificação de texto |
pt_BR |
dc.subject |
Modelos de linguagem grandes |
pt_BR |
dc.subject |
Dados desbalanceados |
pt_BR |
dc.subject |
Domínio jurídico |
pt_BR |
dc.subject |
Diários oficiais |
pt_BR |
dc.subject |
Natural language processing |
pt_BR |
dc.subject |
Text classification |
pt_BR |
dc.subject |
Models large language |
pt_BR |
dc.subject |
Imbalanced data |
pt_BR |
dc.subject |
Legal domain |
pt_BR |
dc.subject |
Official diaries |
pt_BR |
dc.rights |
Acesso Aberto |
pt_BR |
dc.creator |
CUNHA, Mateus Queiroz. |
|
dc.publisher |
Universidade Federal de Campina Grande |
pt_BR |
dc.language |
por |
pt_BR |
dc.title.alternative |
Using large language models for act classification of the official gazette of the union in the tax domain. |
pt_BR |
dc.title.alternative |
Uso de grandes modelos de lenguaje para la clasificación de actos del boletín oficial de la unión en el ámbito fiscal. |
pt_BR |
dc.identifier.citation |
CUNHA, Mateus Queiroz. Utilizando modelos de linguagem grandes para classificação de atos
do Diário Oficial da União no domínio tributário. 2024. 165 fl. Dissertação (Mestrado em Ciência da Computação) – Programa de Pós-Graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Paraíba, Brasil, 2024. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/36228 |
pt_BR |
dc.description.resumen |
Las Ciencias Jurídicas destacan como un campo prometedor para el Procesamiento del Lenguaje
Natural, que contiene información relevante en diversas áreas que impactan a la sociedad.
Este estudio se centra en identificar publicaciones tributarias en el Diário
Oficial Federal (DOU) a través de un enfoque de clasificación de textos. Durante
el análisis del contexto tributario en el DOU, el desafío de abordar el contexto
desequilibrado, además de la necesidad de crear un conjunto de datos anotados centrados en el
dominio fiscal, utilizando una estrategia de anotación automática de registros.
El uso de modelos de lenguaje grandes (o
LLMs), basados en transformadores, en los experimentos realizados resaltaron la efectividad de este
enfoque para clasificar los datos tributarios, incluso frente a los desafíos identificados.
De los resultados obtenidos se observó que mantener el desequilibrio en el conjunto
de los datos de entrenamiento dio como resultado mejores resultados para el escenario en cuestión. Además
Además, los resultados también indican que los LLM con arquitectura de codificador continúan siendo
una opción eficiente que proporciona velocidad y compatibilidad con hardware de uso general.
Estos modelos siguen siendo efectivos incluso en medio de la tendencia hacia la preferencia por los LLM.
con arquitectura decodificadora con un número cada vez mayor de parámetros, especialmente en
escenarios con limitaciones de recursos de hardware. |
pt_BR |