Please use this identifier to cite or link to this item: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/36735
Title: Busca em catálogo de produtos: uma comparação entre banco de dados relacional e motor de busca.
Other Titles: On searching product catalog:relational database versus search engine approaches.
???metadata.dc.creator???: SILVA JÚNIOR, Eniedson Fabiano Pereira da.
???metadata.dc.contributor.advisor1???: BAPTISTA, Cláudio de Souza.
???metadata.dc.contributor.referee1???: OLIVEIRA, Maxwell Guimarães de.
???metadata.dc.contributor.referee2???: MONGIOVI, Melina Mongiovi.
Keywords: Sistemas de Informação;Avaliação de Relevância;Eficiência e Eficácia de Recuperação;Filtragem de Documentos;Information Systems;Relevance Assessment;Recovery Efficiency and Effectiveness;Document Filtering
Issue Date: 17-Nov-2023
Publisher: Universidade Federal de Campina Grande
Citation: SILVA JÚNIOR, Eniedson Fabiano Pereira da. Busca em catálogo de produtos: uma comparação entre banco de dados relacional e motor de busca. 2023. 15 f. Artigo (Bacharelado em Ciência da Computação) - Universidade Federal de Campina Grande, Centro de Engenharia Elétrica e Informática, Campina Grande, Paraíba, Brasil, 2023.
???metadata.dc.description.resumo???: O objetivo do TCE-AC é fiscalizar as despesas e receitas dos municípios e do estado do Acre. Para tanto, nos últimos anos tem modernizado a sua forma de trabalho. Em particular, o acesso rápido aos preços praticados é fundamental para a fiscalização e também para a população em geral. Para isso, o Banco de Preços é utilizado, sendo alimentado por uma base de dados em constante crescimento e que, atualmente, conta com dezenas de milhões de registros de notas fiscais. Diante desse cenário, por utilizar de banco de dados relacionais para a realização das consultas e devido a grande massa de dados existente, o sistema em questão acaba demorando para produzir resultados em diversas situações, além de retornar resultados pouco relevantes em algumas situações. Para solucionar o problema, propõe-se a implantação do Elasticsearch como o motor de busca do sistema. O Elasticsearch utiliza técnicas de indexação e possui ferramentas que otimizam a execução e resultados das queries realizadas. Além disso, serão implementadas estratégias para a carga contínua dos dados, além da documentação dos desafios enfrentados durante a implementação. Para avaliar a solução proposta, foram realizadas medições de estatísticas referentes ao tempo de resposta e qualidade das consultas antes e depois da implantação do Elasticsearch. A qualidade dos resultados foi verificada por meio de técnicas como NDCG (Normalized Discounted Cumulative Gain) e f1-score, a partir da definição dos documentos relevantes ou não para cada consulta. Como resultado, foi possível notar uma diminuição em 10 vezes do tempo de respostas das consultas realizadas no Elasticsearch quando comparado com os resultados envolvendo o Sql Server. Além disso, também foi possível observar uma melhora na relevância dos resultados retornados de cerca de 2%, chegando a um NDCG de 95,3% em média, para consultas com 10 resultados, utilizadas por padrão no sistema.
Abstract: The objective of TCE-AC is to oversee the expenses and revenues of municipalities and the state of Acre. In recent years, it has modernized its working methods. In particular, fast access to the prices being practiced is crucial for both the oversight process and the general population. To achieve this, the Price Database is employed, being continuously updated and currently containing tens of millions of invoice records. Given the scenario, as the system relies on relational databases for conducting queries, it often experiences delays in producing results in various situations and occasionally yields less relevant outcomes. To address this issue, the proposal is to implement Elasticsearch as the search engine for the system. Elasticsearch employs indexing techniques and features tools that optimize query execution and results. Additionally, strategies for continuous data loading will be implemented, along with documenting the challenges encountered during the implementation. To evaluate the proposed solution, statistics related to response times and query quality were measured before and after the implementation of Elasticsearch. Result quality was assessed using techniques such as NDCG (Normalized Discounted Cumulative Gain) and F1-score, based on the determination of relevant and non-relevant documents for each query. As a result, it was observed that Elasticsearch reduced query response times by a factor of 10 when compared to results involving SQL Server. Furthermore, there was an improvement in result relevance of approximately 2%, leading to an average NDCG of 95.3% for queries with 10 results, which are the default in the system.
Keywords: Sistemas de Informação
Avaliação de Relevância
Eficiência e Eficácia de Recuperação
Filtragem de Documentos
Information Systems
Relevance Assessment
Recovery Efficiency and Effectiveness
Document Filtering
???metadata.dc.subject.cnpq???: Ciência da Computação
URI: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/36735
Appears in Collections:Trabalho de Conclusão de Curso - Artigo - Ciência da Computação

Files in This Item:
File Description SizeFormat 
ENIEDSON FABIANO PEREIRA DA SILVA JÚNIOR-ARTIGO-CEEI-CIÊNCIA DA COMPUTAÇÃO (2023).pdf910.95 kBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.