Please use this identifier to cite or link to this item: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/12655
Title: Parallel blocking for entity resolution in the context of semi-structured data.
Other Titles: Bloqueio paralelo para resolução de entidades no contexto de dados semiestruturados.
???metadata.dc.creator???: ARAÚJO, Tiago Brasileiro.
???metadata.dc.contributor.advisor1???: PIRES, Carlos Eduardo Santos.
???metadata.dc.contributor.referee1???: BAPTISTA, Cláudio de Souza.
???metadata.dc.contributor.referee2???: CAMPELO, Cláudio Elízio Calazans.
???metadata.dc.contributor.referee3???: MONTEIRO FILHO, José Maria da Silva.
???metadata.dc.contributor.referee4???: LÓSCIO, Bernadette Farias.
Keywords: Banco de Dados;Sistemas de Informação;Resolução de Entidades;Dados Semiestruturados;Técnicas Agnósticas de Blocagem;Computação Distribuída;Streaming de Dados;Processamento Incremental;Database;Information Systems;Entity Resolution;Semistructured Data;Schema-agnostic Blocking Tech-niques;Distributed Computing;Streaming Data;Incremental Processing
Issue Date: 19-Feb-2020
Publisher: Universidade Federal de Campina Grande
Citation: ARAÚJO, T. B. Parallel blocking for entity resolution in the context of semi-structured data. 2020. 159 f. Tese (Doutorado em Ciência da Computação) – Programa de Pós-Graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Paraíba, Brasil, 2020.
???metadata.dc.description.resumo???: A tarefa de Resolução de Entidades (RE) surge como um passo fundamental para integrar múltiplas bases de conhecimento ou identificar semelhanças entre os dados (entidades). Para evitar o custo quadrático da tarefa de Resolução de Entidades, técnicas de blocagem (ou indexação) são amplamente aplicadas como uma etapa de pré processamento. Neste contexto, dados semi estruturados e grandes fontes de dados (Big Data) emergem como os principais desafios enfrentados pelas técnicas de blocagem. No que diz respeito aos dados semiestruturados, o desafio está relacionado ao fato de que tais dados não compartilham um mesmo esquema, inviabilizando a aplicação de técnicas tradicionais de blocagem. Neste contexto, técnicas agnósticas de blocagem são aplicadas. Em relação às grandes fontes de dados (Big Data), técnicas de blocagem e computação distribuída devem ser aplicadas com o intuito de melhorar a eficiência da tarefa de RE. Nesse sentido, este trabalho propõe um modelo de execução distribuída para blocagem de dados semiestruturados no contexto grandes fontes de dados, capaz de atende às diferentes necessidades dos perfis de aplicação enfrentados pela tarefa de RE. Esses perfis de aplicação estão relacionados às necessidades e características inerentes a cada aplicação, tais como a forma como os dados são recebidos (i.e.,em lotes ou streaming), qualidade dos dados e priorização da eficácia/eficiência da blocagem.Além disso, o presente trabalho também propõe novas técnicas de blocagem que podem ser acopladas ao modelo proposto.Tais técnicas de blocagem endereçam desafios em aberto segundo a literatura, como técnicas agnósticas de blocagemem paralelo, processamento incremental e blocagem de dados em streaming. As técnicas de blocagem foram avaliadas experimentalmente com o objetivo de mensurar a eficiência e eficácia em relação às técnicas de blocagem do estado da arte, utilizando fontes de dados reais. Com base nos resultados experimentais, é possível destacar que as novas técnicas de blocagem apresentaram resultados mais promissores, podendo ser acopladas ao modelo de execução distribuída proposto,de maneira a atender as diferentes necessidades inerentes aos perfis de aplicação.
Abstract: The Entity Resolution (ER) task emerges as a fundamental step to integrate multiple knowl- edge bases or identify similarities between data (entities). To avoid the quadratic cost of the Entity Resolution task, blocking (or indexing) techniques are widely applied as a prepro- cessing step. In this context, semistructured data and large data sources (Big Data) emerge as the major challenges faced by blocking techniques. Regarding semistructured data, the challenge is related to the fact that such data do not share the same scheme, difficulting the application of traditional blocking techniques. In this context, schema-agnostic blocking techniques are applied. For Big Data scenarios, blocking techniques and distributed com- puting should be applied to improve the efficiency of the RE task. In this sense, this work proposes a distributed execution model for blocking semistructured data in the context of large data sources, capable of dealing with different needs of application profiles faced by the ER task. These application profiles are related to the needs and characteristics inherent to each application, such as how the data are managed (i.e., batch or streaming), data quality and prioritization of effectiveness/efficiency. Furthermore, the present work also proposes new blocking techniques that can be integrated into the proposed model. Such blocking techniques address open challenges in the literature, such as parallel blocking techniques, incremental processing, and streaming data blocking. The blocking techniques proposed in this work were evaluated experimentally with the objective of measuring efficiency and effectiveness against the state-of-the-art ones, using real data sources. Based on the experi- mental results, it is possible to highlight that the novel blocking techniques presented better results when compared to the state-of-the-art blocking techniques. Therefore, the proposed techniques can be hosted to the proposed execution model, so that they can address different necessities inherent to the application profiles.
Keywords: Banco de Dados
Sistemas de Informação
Resolução de Entidades
Dados Semiestruturados
Técnicas Agnósticas de Blocagem
Computação Distribuída
Streaming de Dados
Processamento Incremental
Database
Information Systems
Entity Resolution
Semistructured Data
Schema-agnostic Blocking Tech-niques
Distributed Computing
Streaming Data
Incremental Processing
???metadata.dc.subject.cnpq???: Ciência da Computação
URI: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/12655
Appears in Collections:Doutorado em Ciência da Computação.

Files in This Item:
File Description SizeFormat 
TIAGO BRASILEIRO ARAÚJO – TESE (PPGCC) 2020.pdf5.08 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.