Please use this identifier to cite or link to this item: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/12655
Full metadata record
DC FieldValueLanguage
dc.creator.IDAraújo, T. B.pt_BR
dc.creator.Latteshttp://lattes.cnpq.br/1503278831971137pt_BR
dc.contributor.advisor1PIRES, Carlos Eduardo Santos.-
dc.contributor.advisor1IDPIRES, C. E. S.pt_BR
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/4986021622366786pt_BR
dc.contributor.referee1BAPTISTA, Cláudio de Souza.-
dc.contributor.referee2CAMPELO, Cláudio Elízio Calazans.-
dc.contributor.referee3MONTEIRO FILHO, José Maria da Silva.-
dc.contributor.referee4LÓSCIO, Bernadette Farias.-
dc.description.resumoA tarefa de Resolução de Entidades (RE) surge como um passo fundamental para integrar múltiplas bases de conhecimento ou identificar semelhanças entre os dados (entidades). Para evitar o custo quadrático da tarefa de Resolução de Entidades, técnicas de blocagem (ou indexação) são amplamente aplicadas como uma etapa de pré processamento. Neste contexto, dados semi estruturados e grandes fontes de dados (Big Data) emergem como os principais desafios enfrentados pelas técnicas de blocagem. No que diz respeito aos dados semiestruturados, o desafio está relacionado ao fato de que tais dados não compartilham um mesmo esquema, inviabilizando a aplicação de técnicas tradicionais de blocagem. Neste contexto, técnicas agnósticas de blocagem são aplicadas. Em relação às grandes fontes de dados (Big Data), técnicas de blocagem e computação distribuída devem ser aplicadas com o intuito de melhorar a eficiência da tarefa de RE. Nesse sentido, este trabalho propõe um modelo de execução distribuída para blocagem de dados semiestruturados no contexto grandes fontes de dados, capaz de atende às diferentes necessidades dos perfis de aplicação enfrentados pela tarefa de RE. Esses perfis de aplicação estão relacionados às necessidades e características inerentes a cada aplicação, tais como a forma como os dados são recebidos (i.e.,em lotes ou streaming), qualidade dos dados e priorização da eficácia/eficiência da blocagem.Além disso, o presente trabalho também propõe novas técnicas de blocagem que podem ser acopladas ao modelo proposto.Tais técnicas de blocagem endereçam desafios em aberto segundo a literatura, como técnicas agnósticas de blocagemem paralelo, processamento incremental e blocagem de dados em streaming. As técnicas de blocagem foram avaliadas experimentalmente com o objetivo de mensurar a eficiência e eficácia em relação às técnicas de blocagem do estado da arte, utilizando fontes de dados reais. Com base nos resultados experimentais, é possível destacar que as novas técnicas de blocagem apresentaram resultados mais promissores, podendo ser acopladas ao modelo de execução distribuída proposto,de maneira a atender as diferentes necessidades inerentes aos perfis de aplicação.pt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentCentro de Engenharia Elétrica e Informática - CEEIpt_BR
dc.publisher.programPÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃOpt_BR
dc.publisher.initialsUFCGpt_BR
dc.subject.cnpqCiência da Computaçãopt_BR
dc.titleParallel blocking for entity resolution in the context of semi-structured data.pt_BR
dc.date.issued2020-02-19-
dc.description.abstractThe Entity Resolution (ER) task emerges as a fundamental step to integrate multiple knowl- edge bases or identify similarities between data (entities). To avoid the quadratic cost of the Entity Resolution task, blocking (or indexing) techniques are widely applied as a prepro- cessing step. In this context, semistructured data and large data sources (Big Data) emerge as the major challenges faced by blocking techniques. Regarding semistructured data, the challenge is related to the fact that such data do not share the same scheme, difficulting the application of traditional blocking techniques. In this context, schema-agnostic blocking techniques are applied. For Big Data scenarios, blocking techniques and distributed com- puting should be applied to improve the efficiency of the RE task. In this sense, this work proposes a distributed execution model for blocking semistructured data in the context of large data sources, capable of dealing with different needs of application profiles faced by the ER task. These application profiles are related to the needs and characteristics inherent to each application, such as how the data are managed (i.e., batch or streaming), data quality and prioritization of effectiveness/efficiency. Furthermore, the present work also proposes new blocking techniques that can be integrated into the proposed model. Such blocking techniques address open challenges in the literature, such as parallel blocking techniques, incremental processing, and streaming data blocking. The blocking techniques proposed in this work were evaluated experimentally with the objective of measuring efficiency and effectiveness against the state-of-the-art ones, using real data sources. Based on the experi- mental results, it is possible to highlight that the novel blocking techniques presented better results when compared to the state-of-the-art blocking techniques. Therefore, the proposed techniques can be hosted to the proposed execution model, so that they can address different necessities inherent to the application profiles.pt_BR
dc.identifier.urihttp://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/12655-
dc.date.accessioned2020-03-30T16:50:28Z-
dc.date.available2020-03-30-
dc.date.available2020-03-30T16:50:28Z-
dc.typeTesept_BR
dc.subjectBanco de Dadospt_BR
dc.subjectSistemas de Informaçãopt_BR
dc.subjectResolução de Entidadespt_BR
dc.subjectDados Semiestruturadospt_BR
dc.subjectTécnicas Agnósticas de Blocagempt_BR
dc.subjectComputação Distribuídapt_BR
dc.subjectStreaming de Dadospt_BR
dc.subjectProcessamento Incrementalpt_BR
dc.subjectDatabasept_BR
dc.subjectInformation Systemspt_BR
dc.subjectEntity Resolutionpt_BR
dc.subjectSemistructured Datapt_BR
dc.subjectSchema-agnostic Blocking Tech-niquespt_BR
dc.subjectDistributed Computingpt_BR
dc.subjectStreaming Datapt_BR
dc.subjectIncremental Processingpt_BR
dc.rightsAcesso Abertopt_BR
dc.creatorARAÚJO, Tiago Brasileiro.-
dc.publisherUniversidade Federal de Campina Grandept_BR
dc.languageengpt_BR
dc.title.alternativeBloqueio paralelo para resolução de entidades no contexto de dados semiestruturados.pt_BR
dc.identifier.citationARAÚJO, T. B. Parallel blocking for entity resolution in the context of semi-structured data. 2020. 159 f. Tese (Doutorado em Ciência da Computação) – Programa de Pós-Graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Paraíba, Brasil, 2020. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/12655pt_BR
Appears in Collections:Doutorado em Ciência da Computação.

Files in This Item:
File Description SizeFormat 
TIAGO BRASILEIRO ARAÚJO – TESE (PPGCC) 2020.pdfTiago Brasileiro Araújo - Tese (PPGCC) 2020.2.79 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.