Please use this identifier to cite or link to this item: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/8376
Title: Explorando aprendizagem ativa para reduzir o esforço manual na geração de gabaritos para resolução de entidades.
Other Titles: Exploring active learning to reduce manual effort in generating entity resolution templates.
???metadata.dc.creator???: ARAÚJO, Diego Fernandes de.
???metadata.dc.contributor.advisor1???: PIRES, Carlos Eduardo Santos.
???metadata.dc.contributor.referee1???: MARINHO, Leandro Balby.
???metadata.dc.contributor.referee2???: LÓSCIO, Bernadette Farias.
Keywords: Resolução de Entidades;Deduplicação;Gabarito;Aprendizagem de Máquina;Aprendizagem Ativa;Classificação;Record Linkage;Deduplication;Ground-Truth;Machine Learning;Active Learning;Classification
Issue Date: 22-May-2019
Publisher: Universidade Federal de Campina Grande
Citation: ARAÚJO, D. F. de. Explorando aprendizagem ativa para reduzir o esforço manual na geração de gabaritos para resolução de entidades. 2019. 76 f. Dissertação (Mestrado em Ciência da Computação) – Pós-Graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Paraíba, Brasil, 2019. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/8376
???metadata.dc.description.resumo???: Diversos métodos de Resolução de Entidades (RE) têm sido desenvolvidos na academia e indústria ao longo dos anos com o intuito de identificar entidades (e.g.registros) duplicadas em bases de dados a fim de tratá-las. Para avaliar a qualidade dos resultados de tais métodos, é necessário compará-los com um gabarito, que consiste em um documento contendo todos os pares de registros duplicados conhecidos em uma base de dados. A geração desses gabaritos para bases de dados reais é feita de forma manual a partir da inspeção de todas as combinações de pares de registros existentes nessas bases. Isso apresenta complexidade quadrática, com relação ao(s) tamanho(s) da(s) base(s) de dados, o que acarreta na necessidade e bastante tempo para realização da tarefa e na possibilidade de introdução de erros. Em virtude disto,alguns trabalhos apresentam abordagens automáticas ou semiautomáticas para geração de gabaritos para a tarefa de RE que, no entanto, ou não são aplicáveis a domínios variados ou ainda requerem um esforço manual considerável. Neste trabalho é proposta GTGenERAL, uma abordagem semiautomática que combina resultados de múltiplos algoritmos de RE juntamente com Aprendizagem Ativa para gerar gabaritos, com redução de esforço manual. Experimentos usando bases de dados reais mostram que a abordagem é capaz de gerar gabaritos próximos àqueles gerados pela abordagem do estado da arte, enquanto reduz substancialmente o esforço manual empreendido no processo.
Abstract: Several methods of Entity Resolution (ER) have been developed both at academia and industry over the years, with the aim to identify duplicate entities (e.g.records) in datasets. To evaluate the efficacy of such methods, it is necessary to compare their results with a ground-truth, which consists of a document containing all known duplicate record pairs in a dataset. In general, the generation of ground-truths for real datasets is done manually from the inspection of all combinations of pairs of records in a dataset. However, this is subject to error and presents quadratic complexity, with respect to the size(s) of the dataset(s), requiring a long time to be performed. In this context, some works present (semi) automatic approaches for the generation of ground-truths for the ER task. However, such approaches are either not applicable to several domains or still require a considerable manual effort. In this work, we propose GTGenERAL, a semiautomatic approach which combines results from multiple algorithms of ER together with Active Learning to generate ground-truths employing reduced manual effort. Experiments using real datasets show that, with great manual effort reduction, GTGenERAL is able to generate ground-truths close to those generated by the state-of-the-art approach, while substantially reducing the manual effort undertaken in the process.
Keywords: Resolução de Entidades
Deduplicação
Gabarito
Aprendizagem de Máquina
Aprendizagem Ativa
Classificação
Record Linkage
Deduplication
Ground-Truth
Machine Learning
Active Learning
Classification
???metadata.dc.subject.cnpq???: Ciência da Computação
URI: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/8376
Appears in Collections:Mestrado em Ciência da Computação.

Files in This Item:
File Description SizeFormat 
DIEGO FERNANDES DE ARAÚJO - DISSERTAÇÃO (PPGCC) 2019.pdfDiego Fernandes de Araújo - Dissertação PPGCC 20191.85 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.