DSpace/Manakin Repository

Um modelo BERT para sumarização extrativa de textos em documentos da Polícia Federal.

Mostrar registro simples

dc.creator.ID BARROS, T. S. pt_BR
dc.creator.Lattes http://lattes.cnpq.br/7401639950436351 pt_BR
dc.contributor.advisor1 PIRES, Carlos Eduardo Santos.
dc.contributor.advisor1ID PIRES, C. E. S. pt_BR
dc.contributor.advisor1ID PIRES, C. E. pt_BR
dc.contributor.advisor1ID PIRES, CARLOS EDUARDO SANTOS. pt_BR
dc.contributor.advisor1Lattes http://lattes.cnpq.br/4986021622366786 pt_BR
dc.contributor.advisor2 NASCIMENTO FILHO, Dimas Cassimiro do.
dc.contributor.advisor2ID NASCIMENTO FILHO, D. C. pt_BR
dc.contributor.advisor2ID NASCIMENTO, DIMAS CASSIMIRO. pt_BR
dc.contributor.advisor2ID NASCIMENTO, DIMAS C. pt_BR
dc.contributor.advisor2Lattes http://lattes.cnpq.br/3151296501932443 pt_BR
dc.contributor.referee1 MARINHO, Leandro Balby.
dc.contributor.referee1ID MARINHO, L. B. pt_BR
dc.contributor.referee1ID MARINHO, LEANDRO BALBY. pt_BR
dc.contributor.referee1ID MARINHO, LEANDRO. pt_BR
dc.contributor.referee1Lattes http://lattes.cnpq.br/3728312501032061 pt_BR
dc.contributor.referee2 FREITAS, Frederico Luiz Gonçalves de.
dc.contributor.referee2ID FREITAS, F. pt_BR
dc.contributor.referee2ID Freitas, Fred. pt_BR
dc.contributor.referee2ID Freitas, Frederico. pt_BR
dc.contributor.referee2Lattes http://lattes.cnpq.br/6195215666638965 pt_BR
dc.description.resumo Na Polícia Federal do Brasil, um documento denominado notícia-crime é utilizado como ponto de partida em qualquer investigação criminal. Uma notícia-crime tem como objetivo fornecer um resumo das atividades investigativas e, para tal, deve conter todas as infor- mações relevantes sobre o suposto crime ocorrido. A fim de administrar uma investigação e correlacionar com investigações semelhantes, em geral, a Polícia Federal precisa extrair as informações mais importantes do documento da notícia-crime. A extração manual (ler e compreender todo o seu conteúdo) tende a ser exaustiva, devido ao tamanho e à complex- idade dos documentos. Neste sentido, técnicas de Processamento de Linguagem Natural (PLN) podem auxiliar na extração automática dos trechos mais importantes como, por ex- emplo, o crime ocorrido. Nos últimos anos, as redes neurais profundas têm sido aplicadas com sucesso em muitas tarefas diferentes de PLN. Um modelo de rede neural que alavan- cou os resultados em uma ampla gama de tarefas de PLN foi o modelo BERT (Bidirectional Encoder Representations from Transformers). Devido à sua capacidade de representação do sentido de dados textuais, o modelo consegue capturar dependências de curto (correlações entra dados textuais que estão próximos no texto) e longo (correlações entra dados textuais que estão distantes no texto) alcance nos dados textuais. O presente trabalho propõe difer- entes abordagens baseadas no modelo BERT para extrair as informações mais importantes do documento textual referente a uma notícia-crime e construir um resumo do mesmo. Para a sumarização automática de documentos textuais podem ser aplicados dois tipos de técnicas diferentes: abstrativa e extrativa. Nesta pesquisa foi utilizada nas abordagens a técnica de sumarização extrativa para resumo dos documentos. A viabilidade da utilização do modelo BERT para extrair e sintetizar as informações mais importantes de uma notícia-crime é avali- ada em termos de eficácia e eficiência. Para tal, são utilizados dois conjuntos de dados reais: o conjunto de dados da Polícia Federal (de domínio privado) e o conjunto de dados Wikihow brasileiro (de domínio público). Os resultados experimentais, usando diferentes variantes da métrica ROUGE, mostram que as abordagens propostas podem aumentar significativamente a eficácia do resumo de texto extrativo sem sacrificar a eficiência. pt_BR
dc.publisher.country Brasil pt_BR
dc.publisher.department Centro de Engenharia Elétrica e Informática - CEEI pt_BR
dc.publisher.program PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA pt_BR
dc.publisher.initials UFCG pt_BR
dc.subject.cnpq Ciência da Computação pt_BR
dc.title Um modelo BERT para sumarização extrativa de textos em documentos da Polícia Federal. pt_BR
dc.date.issued 2022-04-28
dc.description.abstract In the Federal Police, a document known as notitia criminis is used as the starting point of the criminal investigation. The notitia criminis document aims to report a summary of investigative activities and contains all relevant information about the supposed crime that occurred. In order to manage an investigation and correlate with similar investigations, in general, the Federal Police needs to extract the most important information of the notitia cri- minis document. Manual extraction (reading and understand their entire content) may be hu- man exhausting, due to the size and complexity of the documents. Therefore, it is necessary to use Natural Language Processing (NLP) techniques for automatically extracting the most important passages, such as the crime that occurred.In the last few years, deep neural net- works have been successfully applied to many different NLP tasks. A neural network model that leveraged the results in a wide range of NLP tasks was the BERT model - an acronym for Bidirectional Encoder Representations from Transformers. Due to its ability to repre- sent the meaning textual data, being able to capture both short-range (correlations between textual data that are close together in the text) and long-range (correlations between textual data that are far apart in the text) dependence on textual data. This dissertation proposes different approaches based on the BERT model to extract the most important information from the textual document referring to a notitia criminis document and build a summary of it. For the automatic summarization of textual documents, two types of different techniques can be applied: abstractive and extractive. In this dissertation, the extractive summarization technique was used to summarize the documents. Thus, we aim to analyze the feasibility of using the BERT model to extract and synthesize the most important information from the notitia criminis document. We evaluate the performance of the proposed approaches using two real datasets: the Federal Police dataset (a private domain dataset) and the Brazilian Wikihow dataset (a public domain dataset). Experimental results on the two datasets, using different variants of the ROUGE metric, show that our approaches can significantly increase extractive text summarization effectiveness without sacrificing efficiency. pt_BR
dc.identifier.uri http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/27174
dc.date.accessioned 2022-09-14T13:23:50Z
dc.date.available 2022-09-14
dc.date.available 2022-09-14T13:23:50Z
dc.type Dissertação pt_BR
dc.subject Processamento de Linguagem Natural pt_BR
dc.subject BERT pt_BR
dc.subject Notícia- crime pt_BR
dc.subject Sumarização Automática de Texto pt_BR
dc.subject Polícia Federal do Brasil pt_BR
dc.subject Investigação Policial pt_BR
dc.subject Natural Language Processing pt_BR
dc.subject News- crime pt_BR
dc.subject Automatic Text Summarization pt_BR
dc.subject Police investigation pt_BR
dc.rights Acesso Aberto pt_BR
dc.creator BARROS, Thierry Silva.
dc.publisher Universidade Federal de Campina Grande pt_BR
dc.language por pt_BR
dc.title.alternative A BERT model for extractive summarization of texts in Federal Police documents. pt_BR
dc.identifier.citation BARROS, Thierry Silva. Um modelo BERT para sumarização extrativa de textos emdocumentos da Polícia Federal. 2022. 118 fl. Dissertação (Mestrado em Ciência da Computação ), Programa de Pós-graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Campina Grande, Paraíba, Brasil, 2022. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/27174 pt_BR


Arquivos deste item

Este item aparece na(s) seguinte(s) coleção(s)

Mostrar registro simples

Buscar DSpace


Busca avançada

Navegar

Minha conta