DSpace/Manakin Repository

Explorando aprendizagem ativa para reduzir o esforço manual na geração de gabaritos para resolução de entidades.

Mostrar registro simples

dc.creator.Lattes http://lattes.cnpq.br/2027297399918127 pt_BR
dc.contributor.advisor1 PIRES, Carlos Eduardo Santos.
dc.contributor.advisor1ID PIRES, C. E. S. pt_BR
dc.contributor.advisor1Lattes http://lattes.cnpq.br/4986021622366786 pt_BR
dc.contributor.referee1 MARINHO, Leandro Balby.
dc.contributor.referee2 LÓSCIO, Bernadette Farias.
dc.description.resumo Diversos métodos de Resolução de Entidades (RE) têm sido desenvolvidos na academia e indústria ao longo dos anos com o intuito de identificar entidades (e.g.registros) duplicadas em bases de dados a fim de tratá-las. Para avaliar a qualidade dos resultados de tais métodos, é necessário compará-los com um gabarito, que consiste em um documento contendo todos os pares de registros duplicados conhecidos em uma base de dados. A geração desses gabaritos para bases de dados reais é feita de forma manual a partir da inspeção de todas as combinações de pares de registros existentes nessas bases. Isso apresenta complexidade quadrática, com relação ao(s) tamanho(s) da(s) base(s) de dados, o que acarreta na necessidade e bastante tempo para realização da tarefa e na possibilidade de introdução de erros. Em virtude disto,alguns trabalhos apresentam abordagens automáticas ou semiautomáticas para geração de gabaritos para a tarefa de RE que, no entanto, ou não são aplicáveis a domínios variados ou ainda requerem um esforço manual considerável. Neste trabalho é proposta GTGenERAL, uma abordagem semiautomática que combina resultados de múltiplos algoritmos de RE juntamente com Aprendizagem Ativa para gerar gabaritos, com redução de esforço manual. Experimentos usando bases de dados reais mostram que a abordagem é capaz de gerar gabaritos próximos àqueles gerados pela abordagem do estado da arte, enquanto reduz substancialmente o esforço manual empreendido no processo. pt_BR
dc.publisher.country Brasil pt_BR
dc.publisher.department Centro de Engenharia Elétrica e Informática - CEEI pt_BR
dc.publisher.program PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO pt_BR
dc.publisher.initials UFCG pt_BR
dc.subject.cnpq Ciência da Computação pt_BR
dc.title Explorando aprendizagem ativa para reduzir o esforço manual na geração de gabaritos para resolução de entidades. pt_BR
dc.date.issued 2019-05-22
dc.description.abstract Several methods of Entity Resolution (ER) have been developed both at academia and industry over the years, with the aim to identify duplicate entities (e.g.records) in datasets. To evaluate the efficacy of such methods, it is necessary to compare their results with a ground-truth, which consists of a document containing all known duplicate record pairs in a dataset. In general, the generation of ground-truths for real datasets is done manually from the inspection of all combinations of pairs of records in a dataset. However, this is subject to error and presents quadratic complexity, with respect to the size(s) of the dataset(s), requiring a long time to be performed. In this context, some works present (semi) automatic approaches for the generation of ground-truths for the ER task. However, such approaches are either not applicable to several domains or still require a considerable manual effort. In this work, we propose GTGenERAL, a semiautomatic approach which combines results from multiple algorithms of ER together with Active Learning to generate ground-truths employing reduced manual effort. Experiments using real datasets show that, with great manual effort reduction, GTGenERAL is able to generate ground-truths close to those generated by the state-of-the-art approach, while substantially reducing the manual effort undertaken in the process. pt_BR
dc.identifier.uri http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/8376
dc.date.accessioned 2019-10-23T09:26:35Z
dc.date.available 2019-10-21
dc.date.available 2019-10-23T09:26:35Z
dc.type Dissertação pt_BR
dc.subject Resolução de Entidades pt_BR
dc.subject Deduplicação pt_BR
dc.subject Gabarito pt_BR
dc.subject Aprendizagem de Máquina pt_BR
dc.subject Aprendizagem Ativa pt_BR
dc.subject Classificação pt_BR
dc.subject Record Linkage pt_BR
dc.subject Deduplication pt_BR
dc.subject Ground-Truth pt_BR
dc.subject Machine Learning pt_BR
dc.subject Active Learning pt_BR
dc.subject Classification pt_BR
dc.rights Acesso Aberto pt_BR
dc.creator ARAÚJO, Diego Fernandes de.
dc.publisher Universidade Federal de Campina Grande pt_BR
dc.language por pt_BR
dc.title.alternative Exploring active learning to reduce manual effort in generating entity resolution templates. pt_BR
dc.identifier.citation ARAÚJO, D. F. de. Explorando aprendizagem ativa para reduzir o esforço manual na geração de gabaritos para resolução de entidades. 2019. 76 f. Dissertação (Mestrado em Ciência da Computação) – Pós-Graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Paraíba, Brasil, 2019. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/8376 pt_BR


Arquivos deste item

Este item aparece na(s) seguinte(s) coleção(s)

Mostrar registro simples

Buscar DSpace


Busca avançada

Navegar

Minha conta