DSpace/Manakin Repository

Avaliação de métodos de similaridade textual no contexto de investigação policial.

Mostrar registro simples

dc.creator.ID MARQUES JUNIOR, A. R. pt_BR
dc.creator.Lattes http://lattes.cnpq.br/4426213995601363 pt_BR
dc.contributor.advisor1 MONTEIRO, João Arthur Brunet.
dc.contributor.advisor1ID BRUNET, J. A. M. pt_BR
dc.contributor.advisor1Lattes http://lattes.cnpq.br/7892247821251194 pt_BR
dc.contributor.referee1 MASSONI, Tiago Lima.
dc.contributor.referee2 ANDRADE, Nazareno Ferreira de.
dc.contributor.referee3 FIGUEIREDO, Flavio Vinicius Diniz de.
dc.description.resumo A Polícia Federal (PF) atua, dentre suas diversas atribuições, na apuração de inquéritos através de delegados e agentes federais em seus respectivos núcleos de investigação. Uma das tarefas mais recorrentes realizada pelos investigadores ocorre no processo de instauração de inquéritos, onde o responsável deve verificar se já existe um procedimento de investigação criminal para o fato em questão. Entretanto, por se tratar de uma atividade subjetiva e que depende do indiv´ıduo que a realiza, existe a possibilidade da instauração de mais de um inquérito apurando o mesmo fato, dificultando o processo de investigação. Este estudo compara modelos clássicos e do estado da arte em Recuperação da Informação como distância de Cosseno, Similaridade de Jaccard, Doc2Vec e WMD, na busca por inquéritos relevantes a partir de informações estruturadas e não-estruturadas (documentos textuais), visando identificar duplicidade de inquéritos, casos similares que auxiliem em tomadas de decisão em investigações ou para treinamento de novos delegados e crimes que possam estar relacionados. Para a construção dos modelos foram utilizados dados de inquéritos não-sigilosos do ePol, plataforma web que gerencia atividades policiais e interliga as unidades da PF. Os modelos construídos retornam o top 4 inquéritos similares a um inquérito passado como entrada. Dado que o problema trata de dados não-supervisionados, a avaliação foi realizada por meio de especialistas no contexto, representados por delegados e escrivães da PF, onde estes responderam a formulários submetidos diariamente com inquéritos a serem comparados. Os resultados mostram que métodos clássicos como similaridade de jaccard e distância de cosseno atingem bons resultados para detecção de inquéritos semelhantes, com NDCGs iguais a 0.8812 e 0.8371 respectivamente. O modelo WMD ainda apresenta um NDCG próximo aos já citados (0.8037) e o doc2vec atinge o pior resultado (0.6743). O estudo sugere que o desempenho dos modelos baseados em redes neurais estão abaixo dos demais devido a base de treinamento não ser considerada grande o suficiente para um modelo de rede neural profunda, o que pode dificultar a tarefa de aprendizado para este tipo de abordagem. Para detecção de duplicidade e relação entre inquéritos os resultados não foram satisfatórios de acordo com a métrica utilizada. Entretanto, vale salientar que, i ao contrário da semelhança entre inquéritos, duplicidade e relação entre inquéritos não são eventos comuns de ocorrerem neste contexto. Os modelos sugeridos no estudo podem ser utilizados junto a plataforma ePol, auxiliando na identificação de duplicidade e assim otimizando o trabalho da PF ao reduzir o desperdício de recursos da corporação, além de sugerir inquéritos semelhantes para, por exemplo, auxiliar no treinamento de novos delegados sobre como e quais ações devem ser tomadas na condução de um inquérito policial. pt_BR
dc.publisher.country Brasil pt_BR
dc.publisher.department Centro de Engenharia Elétrica e Informática - CEEI pt_BR
dc.publisher.program PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO pt_BR
dc.publisher.initials UFCG pt_BR
dc.subject.cnpq Ciência da Computação pt_BR
dc.title Avaliação de métodos de similaridade textual no contexto de investigação policial. pt_BR
dc.date.issued 2020-02-03
dc.description.abstract The Brazilian Federal Police (PF) operates, among its diverse duties, in the investigation of cases through federal agents in their respective departments. One of the most recurrent tasks carried out by investigators occurs in the process of open investigations, where the person in charge must verify if there is already a criminal investigation procedure for the fact in question. However, because it is a subjective activity and it depends who performs it, there is the possibility of setting up more than one investigation ascertaining the same fact, making the investigation process difficult. This study compares classic and and state-of-art models in information retrieval such as Cosine Distance, Jaccard Similarity, Doc2Vec, and WMD, in search of relevant inquiries from structured and unstructured data (textual documents), aiming to detect document inquiries duplicity, similar cases that assist decision-making in investigations or to train new delegates through similar crimes. To build the IR models, we used non-confidential data from ePol, the web platform which manages investigations’ activities and interconnects the Federal Police Stations of Brazil. Each model returns the 4 most similar inquires to a previous inquiry selected as input. 55 inquiries were used as queries for each model and their responses were submitted to an evaluation. Given the problem deals with unsupervised data, the evaluation was fulfilled by contextual experts, represented by PF delegates and clerks, where they answered surveys daily regarding comparisons between inquires. The results show classical methods such as jaccard similarity and cosine distance chieve good results for similar inquiries’ detection, with NDCGs equal to 0.8812 and 0.8371 respectively. The WMD model still has an NDCG close to those already mentioned (0.8037) and doc2vec achieves the worst result (0.6743). The study suggests the performance of models based on neural networks are below the others because the training base is not considered large enough for a deep neural network model, which can make the learning task for this type of approach more difficult. For detection of duplicity and relationship between inquiries, the results were not satisfactory according to NDCG metric. However, it should be noted that, unlike the similarity between inquiries, duplicity and relationship between inquiries are not common events to occur in this context. The models suggested in this study can be used as a feature of the ePol platform, identifying duplicity between inquiries and thereby optimizing PF’s work by reducing the waste of corporate resources, suggesting similar inquiries to new delegates and helping them regarding what actions should be taken in a police investigation. pt_BR
dc.identifier.uri http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/12717
dc.date.accessioned 2020-04-08T15:42:55Z
dc.date.available 2020-04-08
dc.date.available 2020-04-08T15:42:55Z
dc.type Dissertação pt_BR
dc.subject Recuperação da Informação pt_BR
dc.subject Information Retrieval pt_BR
dc.subject Recuperación de Información pt_BR
dc.subject Processamento de Linguagem Natural pt_BR
dc.subject Procesamiento del Lenguaje Natural pt_BR
dc.subject Natural Language Processing pt_BR
dc.subject Aprendizagem de Máquina pt_BR
dc.subject Machine Learning pt_BR
dc.subject Aprendizaje Automático pt_BR
dc.subject Investigação Policial pt_BR
dc.subject Investigación Policial pt_BR
dc.subject Police Investigation pt_BR
dc.subject Similaridade Textual pt_BR
dc.subject Textual Similarity pt_BR
dc.subject Similitud Textual pt_BR
dc.rights Acesso Aberto pt_BR
dc.creator MARQUES JUNIOR, Antonio Ricardo.
dc.publisher Universidade Federal de Campina Grande pt_BR
dc.language por pt_BR
dc.title.alternative Evaluation of textual similarity methods in the context of police investigation. pt_BR
dc.identifier.citation MARQUES JUNIOR, A. R. Avaliação de métodos de similaridade textual no contexto de investigação policial. 2020. 63 f. Dissertação (Mestrado em Sistemas e Computação), Programa de Pós-graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande - Paraíba - Brasil, 2020. pt_BR


Arquivos deste item

Este item aparece na(s) seguinte(s) coleção(s)

Mostrar registro simples

Buscar DSpace


Busca avançada

Navegar

Minha conta