dc.creator.ID |
BARROS, T. S. |
pt_BR |
dc.creator.Lattes |
http://lattes.cnpq.br/7401639950436351 |
pt_BR |
dc.contributor.advisor1 |
PIRES, Carlos Eduardo Santos. |
|
dc.contributor.advisor1ID |
PIRES, C. E. S. |
pt_BR |
dc.contributor.advisor1ID |
PIRES, C. E. |
pt_BR |
dc.contributor.advisor1ID |
PIRES, CARLOS EDUARDO SANTOS. |
pt_BR |
dc.contributor.advisor1Lattes |
http://lattes.cnpq.br/4986021622366786 |
pt_BR |
dc.contributor.advisor2 |
NASCIMENTO FILHO, Dimas Cassimiro do. |
|
dc.contributor.advisor2ID |
NASCIMENTO FILHO, D. C. |
pt_BR |
dc.contributor.advisor2ID |
NASCIMENTO, DIMAS CASSIMIRO. |
pt_BR |
dc.contributor.advisor2ID |
NASCIMENTO, DIMAS C. |
pt_BR |
dc.contributor.advisor2Lattes |
http://lattes.cnpq.br/3151296501932443 |
pt_BR |
dc.contributor.referee1 |
MARINHO, Leandro Balby. |
|
dc.contributor.referee1ID |
MARINHO, L. B. |
pt_BR |
dc.contributor.referee1ID |
MARINHO, LEANDRO BALBY. |
pt_BR |
dc.contributor.referee1ID |
MARINHO, LEANDRO. |
pt_BR |
dc.contributor.referee1Lattes |
http://lattes.cnpq.br/3728312501032061 |
pt_BR |
dc.contributor.referee2 |
FREITAS, Frederico Luiz Gonçalves de. |
|
dc.contributor.referee2ID |
FREITAS, F. |
pt_BR |
dc.contributor.referee2ID |
Freitas, Fred. |
pt_BR |
dc.contributor.referee2ID |
Freitas, Frederico. |
pt_BR |
dc.contributor.referee2Lattes |
http://lattes.cnpq.br/6195215666638965 |
pt_BR |
dc.description.resumo |
Na Polícia Federal do Brasil, um documento denominado notícia-crime é utilizado como
ponto de partida em qualquer investigação criminal. Uma notícia-crime tem como objetivo
fornecer um resumo das atividades investigativas e, para tal, deve conter todas as infor-
mações relevantes sobre o suposto crime ocorrido. A fim de administrar uma investigação
e correlacionar com investigações semelhantes, em geral, a Polícia Federal precisa extrair
as informações mais importantes do documento da notícia-crime. A extração manual (ler e
compreender todo o seu conteúdo) tende a ser exaustiva, devido ao tamanho e à complex-
idade dos documentos. Neste sentido, técnicas de Processamento de Linguagem Natural
(PLN) podem auxiliar na extração automática dos trechos mais importantes como, por ex-
emplo, o crime ocorrido. Nos últimos anos, as redes neurais profundas têm sido aplicadas
com sucesso em muitas tarefas diferentes de PLN. Um modelo de rede neural que alavan-
cou os resultados em uma ampla gama de tarefas de PLN foi o modelo BERT (Bidirectional
Encoder Representations from Transformers). Devido à sua capacidade de representação do
sentido de dados textuais, o modelo consegue capturar dependências de curto (correlações
entra dados textuais que estão próximos no texto) e longo (correlações entra dados textuais
que estão distantes no texto) alcance nos dados textuais. O presente trabalho propõe difer-
entes abordagens baseadas no modelo BERT para extrair as informações mais importantes
do documento textual referente a uma notícia-crime e construir um resumo do mesmo. Para
a sumarização automática de documentos textuais podem ser aplicados dois tipos de técnicas
diferentes: abstrativa e extrativa. Nesta pesquisa foi utilizada nas abordagens a técnica de
sumarização extrativa para resumo dos documentos. A viabilidade da utilização do modelo
BERT para extrair e sintetizar as informações mais importantes de uma notícia-crime é avali-
ada em termos de eficácia e eficiência. Para tal, são utilizados dois conjuntos de dados reais:
o conjunto de dados da Polícia Federal (de domínio privado) e o conjunto de dados Wikihow
brasileiro (de domínio público). Os resultados experimentais, usando diferentes variantes da
métrica ROUGE, mostram que as abordagens propostas podem aumentar significativamente
a eficácia do resumo de texto extrativo sem sacrificar a eficiência. |
pt_BR |
dc.publisher.country |
Brasil |
pt_BR |
dc.publisher.department |
Centro de Engenharia Elétrica e Informática - CEEI |
pt_BR |
dc.publisher.program |
PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA |
pt_BR |
dc.publisher.initials |
UFCG |
pt_BR |
dc.subject.cnpq |
Ciência da Computação |
pt_BR |
dc.title |
Um modelo BERT para sumarização extrativa de textos em documentos da Polícia Federal. |
pt_BR |
dc.date.issued |
2022-04-28 |
|
dc.description.abstract |
In the Federal Police, a document known as notitia criminis is used as the starting point
of the criminal investigation. The notitia criminis document aims to report a summary of
investigative activities and contains all relevant information about the supposed crime that
occurred. In order to manage an investigation and correlate with similar investigations, in
general, the Federal Police needs to extract the most important information of the notitia cri-
minis document. Manual extraction (reading and understand their entire content) may be hu-
man exhausting, due to the size and complexity of the documents. Therefore, it is necessary
to use Natural Language Processing (NLP) techniques for automatically extracting the most
important passages, such as the crime that occurred.In the last few years, deep neural net-
works have been successfully applied to many different NLP tasks. A neural network model
that leveraged the results in a wide range of NLP tasks was the BERT model - an acronym
for Bidirectional Encoder Representations from Transformers. Due to its ability to repre-
sent the meaning textual data, being able to capture both short-range (correlations between
textual data that are close together in the text) and long-range (correlations between textual
data that are far apart in the text) dependence on textual data. This dissertation proposes
different approaches based on the BERT model to extract the most important information
from the textual document referring to a notitia criminis document and build a summary of
it. For the automatic summarization of textual documents, two types of different techniques
can be applied: abstractive and extractive. In this dissertation, the extractive summarization
technique was used to summarize the documents. Thus, we aim to analyze the feasibility
of using the BERT model to extract and synthesize the most important information from the
notitia criminis document. We evaluate the performance of the proposed approaches using
two real datasets: the Federal Police dataset (a private domain dataset) and the Brazilian
Wikihow dataset (a public domain dataset). Experimental results on the two datasets, using
different variants of the ROUGE metric, show that our approaches can significantly increase
extractive text summarization effectiveness without sacrificing efficiency. |
pt_BR |
dc.identifier.uri |
http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/27174 |
|
dc.date.accessioned |
2022-09-14T13:23:50Z |
|
dc.date.available |
2022-09-14 |
|
dc.date.available |
2022-09-14T13:23:50Z |
|
dc.type |
Dissertação |
pt_BR |
dc.subject |
Processamento de Linguagem Natural |
pt_BR |
dc.subject |
BERT |
pt_BR |
dc.subject |
Notícia- crime |
pt_BR |
dc.subject |
Sumarização Automática de Texto |
pt_BR |
dc.subject |
Polícia Federal do Brasil |
pt_BR |
dc.subject |
Investigação Policial |
pt_BR |
dc.subject |
Natural Language Processing |
pt_BR |
dc.subject |
News- crime |
pt_BR |
dc.subject |
Automatic Text Summarization |
pt_BR |
dc.subject |
Police investigation |
pt_BR |
dc.rights |
Acesso Aberto |
pt_BR |
dc.creator |
BARROS, Thierry Silva. |
|
dc.publisher |
Universidade Federal de Campina Grande |
pt_BR |
dc.language |
por |
pt_BR |
dc.title.alternative |
A BERT model for extractive summarization of texts in Federal Police documents. |
pt_BR |
dc.identifier.citation |
BARROS, Thierry Silva. Um modelo BERT para sumarização extrativa de textos emdocumentos da Polícia Federal. 2022. 118 fl. Dissertação (Mestrado em Ciência da Computação ), Programa de Pós-graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Campina Grande, Paraíba, Brasil, 2022. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/27174 |
pt_BR |