DSpace/Manakin Repository

Parallel blocking for entity resolution in the context of semi-structured data.

Mostrar registro simples

dc.creator.ID Araújo, T. B. pt_BR
dc.creator.Lattes http://lattes.cnpq.br/1503278831971137 pt_BR
dc.contributor.advisor1 PIRES, Carlos Eduardo Santos.
dc.contributor.advisor1ID PIRES, C. E. S. pt_BR
dc.contributor.advisor1Lattes http://lattes.cnpq.br/4986021622366786 pt_BR
dc.contributor.referee1 BAPTISTA, Cláudio de Souza.
dc.contributor.referee2 CAMPELO, Cláudio Elízio Calazans.
dc.contributor.referee3 MONTEIRO FILHO, José Maria da Silva.
dc.contributor.referee4 LÓSCIO, Bernadette Farias.
dc.description.resumo A tarefa de Resolução de Entidades (RE) surge como um passo fundamental para integrar múltiplas bases de conhecimento ou identificar semelhanças entre os dados (entidades). Para evitar o custo quadrático da tarefa de Resolução de Entidades, técnicas de blocagem (ou indexação) são amplamente aplicadas como uma etapa de pré processamento. Neste contexto, dados semi estruturados e grandes fontes de dados (Big Data) emergem como os principais desafios enfrentados pelas técnicas de blocagem. No que diz respeito aos dados semiestruturados, o desafio está relacionado ao fato de que tais dados não compartilham um mesmo esquema, inviabilizando a aplicação de técnicas tradicionais de blocagem. Neste contexto, técnicas agnósticas de blocagem são aplicadas. Em relação às grandes fontes de dados (Big Data), técnicas de blocagem e computação distribuída devem ser aplicadas com o intuito de melhorar a eficiência da tarefa de RE. Nesse sentido, este trabalho propõe um modelo de execução distribuída para blocagem de dados semiestruturados no contexto grandes fontes de dados, capaz de atende às diferentes necessidades dos perfis de aplicação enfrentados pela tarefa de RE. Esses perfis de aplicação estão relacionados às necessidades e características inerentes a cada aplicação, tais como a forma como os dados são recebidos (i.e.,em lotes ou streaming), qualidade dos dados e priorização da eficácia/eficiência da blocagem.Além disso, o presente trabalho também propõe novas técnicas de blocagem que podem ser acopladas ao modelo proposto.Tais técnicas de blocagem endereçam desafios em aberto segundo a literatura, como técnicas agnósticas de blocagemem paralelo, processamento incremental e blocagem de dados em streaming. As técnicas de blocagem foram avaliadas experimentalmente com o objetivo de mensurar a eficiência e eficácia em relação às técnicas de blocagem do estado da arte, utilizando fontes de dados reais. Com base nos resultados experimentais, é possível destacar que as novas técnicas de blocagem apresentaram resultados mais promissores, podendo ser acopladas ao modelo de execução distribuída proposto,de maneira a atender as diferentes necessidades inerentes aos perfis de aplicação. pt_BR
dc.publisher.country Brasil pt_BR
dc.publisher.department Centro de Engenharia Elétrica e Informática - CEEI pt_BR
dc.publisher.program PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO pt_BR
dc.publisher.initials UFCG pt_BR
dc.subject.cnpq Ciência da Computação pt_BR
dc.title Parallel blocking for entity resolution in the context of semi-structured data. pt_BR
dc.date.issued 2020-02-19
dc.description.abstract The Entity Resolution (ER) task emerges as a fundamental step to integrate multiple knowl- edge bases or identify similarities between data (entities). To avoid the quadratic cost of the Entity Resolution task, blocking (or indexing) techniques are widely applied as a prepro- cessing step. In this context, semistructured data and large data sources (Big Data) emerge as the major challenges faced by blocking techniques. Regarding semistructured data, the challenge is related to the fact that such data do not share the same scheme, difficulting the application of traditional blocking techniques. In this context, schema-agnostic blocking techniques are applied. For Big Data scenarios, blocking techniques and distributed com- puting should be applied to improve the efficiency of the RE task. In this sense, this work proposes a distributed execution model for blocking semistructured data in the context of large data sources, capable of dealing with different needs of application profiles faced by the ER task. These application profiles are related to the needs and characteristics inherent to each application, such as how the data are managed (i.e., batch or streaming), data quality and prioritization of effectiveness/efficiency. Furthermore, the present work also proposes new blocking techniques that can be integrated into the proposed model. Such blocking techniques address open challenges in the literature, such as parallel blocking techniques, incremental processing, and streaming data blocking. The blocking techniques proposed in this work were evaluated experimentally with the objective of measuring efficiency and effectiveness against the state-of-the-art ones, using real data sources. Based on the experi- mental results, it is possible to highlight that the novel blocking techniques presented better results when compared to the state-of-the-art blocking techniques. Therefore, the proposed techniques can be hosted to the proposed execution model, so that they can address different necessities inherent to the application profiles. pt_BR
dc.identifier.uri http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/12655
dc.date.accessioned 2020-03-30T16:50:28Z
dc.date.available 2020-03-30
dc.date.available 2020-03-30T16:50:28Z
dc.type Tese pt_BR
dc.subject Banco de Dados pt_BR
dc.subject Sistemas de Informação pt_BR
dc.subject Resolução de Entidades pt_BR
dc.subject Dados Semiestruturados pt_BR
dc.subject Técnicas Agnósticas de Blocagem pt_BR
dc.subject Computação Distribuída pt_BR
dc.subject Streaming de Dados pt_BR
dc.subject Processamento Incremental pt_BR
dc.subject Database pt_BR
dc.subject Information Systems pt_BR
dc.subject Entity Resolution pt_BR
dc.subject Semistructured Data pt_BR
dc.subject Schema-agnostic Blocking Tech-niques pt_BR
dc.subject Distributed Computing pt_BR
dc.subject Streaming Data pt_BR
dc.subject Incremental Processing pt_BR
dc.rights Acesso Aberto pt_BR
dc.creator ARAÚJO, Tiago Brasileiro.
dc.publisher Universidade Federal de Campina Grande pt_BR
dc.language eng pt_BR
dc.title.alternative Bloqueio paralelo para resolução de entidades no contexto de dados semiestruturados. pt_BR
dc.identifier.citation ARAÚJO, T. B. Parallel blocking for entity resolution in the context of semi-structured data. 2020. 159 f. Tese (Doutorado em Ciência da Computação) – Programa de Pós-Graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Paraíba, Brasil, 2020. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/12655 pt_BR


Arquivos deste item

Este item aparece na(s) seguinte(s) coleção(s)

Mostrar registro simples

Buscar DSpace


Busca avançada

Navegar

Minha conta