Please use this identifier to cite or link to this item: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/27174
Full metadata record
DC FieldValueLanguage
dc.creator.IDBARROS, T. S.pt_BR
dc.creator.Latteshttp://lattes.cnpq.br/7401639950436351pt_BR
dc.contributor.advisor1PIRES, Carlos Eduardo Santos.-
dc.contributor.advisor1IDPIRES, C. E. S.pt_BR
dc.contributor.advisor1IDPIRES, C. E.pt_BR
dc.contributor.advisor1IDPIRES, CARLOS EDUARDO SANTOS.pt_BR
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/4986021622366786pt_BR
dc.contributor.advisor2NASCIMENTO FILHO, Dimas Cassimiro do.-
dc.contributor.advisor2IDNASCIMENTO FILHO, D. C.pt_BR
dc.contributor.advisor2IDNASCIMENTO, DIMAS CASSIMIRO.pt_BR
dc.contributor.advisor2IDNASCIMENTO, DIMAS C.pt_BR
dc.contributor.advisor2Latteshttp://lattes.cnpq.br/3151296501932443pt_BR
dc.contributor.referee1MARINHO, Leandro Balby.-
dc.contributor.referee1IDMARINHO, L. B.pt_BR
dc.contributor.referee1IDMARINHO, LEANDRO BALBY.pt_BR
dc.contributor.referee1IDMARINHO, LEANDRO.pt_BR
dc.contributor.referee1Latteshttp://lattes.cnpq.br/3728312501032061pt_BR
dc.contributor.referee2FREITAS, Frederico Luiz Gonçalves de.-
dc.contributor.referee2IDFREITAS, F.pt_BR
dc.contributor.referee2IDFreitas, Fred.pt_BR
dc.contributor.referee2IDFreitas, Frederico.pt_BR
dc.contributor.referee2Latteshttp://lattes.cnpq.br/6195215666638965pt_BR
dc.description.resumoNa Polícia Federal do Brasil, um documento denominado notícia-crime é utilizado como ponto de partida em qualquer investigação criminal. Uma notícia-crime tem como objetivo fornecer um resumo das atividades investigativas e, para tal, deve conter todas as infor- mações relevantes sobre o suposto crime ocorrido. A fim de administrar uma investigação e correlacionar com investigações semelhantes, em geral, a Polícia Federal precisa extrair as informações mais importantes do documento da notícia-crime. A extração manual (ler e compreender todo o seu conteúdo) tende a ser exaustiva, devido ao tamanho e à complex- idade dos documentos. Neste sentido, técnicas de Processamento de Linguagem Natural (PLN) podem auxiliar na extração automática dos trechos mais importantes como, por ex- emplo, o crime ocorrido. Nos últimos anos, as redes neurais profundas têm sido aplicadas com sucesso em muitas tarefas diferentes de PLN. Um modelo de rede neural que alavan- cou os resultados em uma ampla gama de tarefas de PLN foi o modelo BERT (Bidirectional Encoder Representations from Transformers). Devido à sua capacidade de representação do sentido de dados textuais, o modelo consegue capturar dependências de curto (correlações entra dados textuais que estão próximos no texto) e longo (correlações entra dados textuais que estão distantes no texto) alcance nos dados textuais. O presente trabalho propõe difer- entes abordagens baseadas no modelo BERT para extrair as informações mais importantes do documento textual referente a uma notícia-crime e construir um resumo do mesmo. Para a sumarização automática de documentos textuais podem ser aplicados dois tipos de técnicas diferentes: abstrativa e extrativa. Nesta pesquisa foi utilizada nas abordagens a técnica de sumarização extrativa para resumo dos documentos. A viabilidade da utilização do modelo BERT para extrair e sintetizar as informações mais importantes de uma notícia-crime é avali- ada em termos de eficácia e eficiência. Para tal, são utilizados dois conjuntos de dados reais: o conjunto de dados da Polícia Federal (de domínio privado) e o conjunto de dados Wikihow brasileiro (de domínio público). Os resultados experimentais, usando diferentes variantes da métrica ROUGE, mostram que as abordagens propostas podem aumentar significativamente a eficácia do resumo de texto extrativo sem sacrificar a eficiência.pt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentCentro de Engenharia Elétrica e Informática - CEEIpt_BR
dc.publisher.programPÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICApt_BR
dc.publisher.initialsUFCGpt_BR
dc.subject.cnpqCiência da Computaçãopt_BR
dc.titleUm modelo BERT para sumarização extrativa de textos em documentos da Polícia Federal.pt_BR
dc.date.issued2022-04-28-
dc.description.abstractIn the Federal Police, a document known as notitia criminis is used as the starting point of the criminal investigation. The notitia criminis document aims to report a summary of investigative activities and contains all relevant information about the supposed crime that occurred. In order to manage an investigation and correlate with similar investigations, in general, the Federal Police needs to extract the most important information of the notitia cri- minis document. Manual extraction (reading and understand their entire content) may be hu- man exhausting, due to the size and complexity of the documents. Therefore, it is necessary to use Natural Language Processing (NLP) techniques for automatically extracting the most important passages, such as the crime that occurred.In the last few years, deep neural net- works have been successfully applied to many different NLP tasks. A neural network model that leveraged the results in a wide range of NLP tasks was the BERT model - an acronym for Bidirectional Encoder Representations from Transformers. Due to its ability to repre- sent the meaning textual data, being able to capture both short-range (correlations between textual data that are close together in the text) and long-range (correlations between textual data that are far apart in the text) dependence on textual data. This dissertation proposes different approaches based on the BERT model to extract the most important information from the textual document referring to a notitia criminis document and build a summary of it. For the automatic summarization of textual documents, two types of different techniques can be applied: abstractive and extractive. In this dissertation, the extractive summarization technique was used to summarize the documents. Thus, we aim to analyze the feasibility of using the BERT model to extract and synthesize the most important information from the notitia criminis document. We evaluate the performance of the proposed approaches using two real datasets: the Federal Police dataset (a private domain dataset) and the Brazilian Wikihow dataset (a public domain dataset). Experimental results on the two datasets, using different variants of the ROUGE metric, show that our approaches can significantly increase extractive text summarization effectiveness without sacrificing efficiency.pt_BR
dc.identifier.urihttp://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/27174-
dc.date.accessioned2022-09-14T13:23:50Z-
dc.date.available2022-09-14-
dc.date.available2022-09-14T13:23:50Z-
dc.typeDissertaçãopt_BR
dc.subjectProcessamento de Linguagem Naturalpt_BR
dc.subjectBERTpt_BR
dc.subjectNotícia- crimept_BR
dc.subjectSumarização Automática de Textopt_BR
dc.subjectPolícia Federal do Brasilpt_BR
dc.subjectInvestigação Policialpt_BR
dc.subjectNatural Language Processingpt_BR
dc.subjectNews- crimept_BR
dc.subjectAutomatic Text Summarizationpt_BR
dc.subjectPolice investigationpt_BR
dc.rightsAcesso Abertopt_BR
dc.creatorBARROS, Thierry Silva.-
dc.publisherUniversidade Federal de Campina Grandept_BR
dc.languageporpt_BR
dc.title.alternativeA BERT model for extractive summarization of texts in Federal Police documents.pt_BR
dc.identifier.citationBARROS, Thierry Silva. Um modelo BERT para sumarização extrativa de textos emdocumentos da Polícia Federal. 2022. 118 fl. Dissertação (Mestrado em Ciência da Computação ), Programa de Pós-graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Campina Grande, Paraíba, Brasil, 2022. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/27174pt_BR
Appears in Collections:Mestrado em Ciência da Computação.

Files in This Item:
File Description SizeFormat 
THIERRY SILVA BARROS – DISSERTAÇÃO PPGCC 2022.pdfThierry Silva Barros - Dissertação PPGCC 20222.9 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.