Please use this identifier to cite or link to this item: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/38189
Title: Eficiência na busca por regiões geográficas similares: comparando diferentes manipulações nos embeddings de POI e feições geográficas.
Other Titles: Efficiency in the search for similar geographic regions: comparing different manipulations in POI and geographic features embeddings.
???metadata.dc.creator???: GOMES, José Igor de Farias.
???metadata.dc.contributor.advisor1???: CAMPELO, Claudio Elízio Calazans.
???metadata.dc.contributor.referee1???: PIRES, Carlos Eduardo Santos.
???metadata.dc.contributor.referee2???: BRASILEIRO, Francisco Vilar.
Keywords: Embeddings;Pontos de Interesse (POI);Técnicas de Redução de Dimensionalidade;Word2Vec;K-Nearest Neighbors (KNN);Aproximate Nearest Neighbors (ANN);Points of Interest (POI);Dimensionality Reduction Techniques
Issue Date: 15-May-2024
Publisher: Universidade Federal de Campina Grande
Citation: GOMES, José Igor de Farias. Eficiência na busca por regiões geográficas similares: comparando diferentes manipulações nos embeddings de POI e feições geográficas. 14 f. Artigo (Bacharelado em Ciência da Computação) - Universidade Federal de Campina Grande, Centro de Engenharia Elétrica e Informática, Campina Grande, Paraíba, Brasil, 2024.
???metadata.dc.description.resumo???: A representação de regiões geográficas tem sido alvo de pesquisas nos últimos tempos, pois é a peça chave para a realização de diversas tarefas, como a busca por regiões similares. Tal representação, porém, não é tarefa trivial, uma vez que pode envolver inúmeras variáveis no processo. A tendência atual é que essas representações sejam feitas através de vetores de alta dimensão, conhecidos como embeddings. Porém, operações de busca por estes costumam ser custosas para a máquina em termos de tempo de processamento e consumo de disco. Neste artigo experimentou-se diferentes manipulações nesses vetores a fim de diminuir o consumo de recursos computacionais no momento da busca sem comprometer significativamente a relevância dos resultados produzidos por ela. Técnicas de redução de dimensionalidade dos vetores e quantização de seus elementos foram executadas, além de comparações entre a busca exata por vizinhos mais próximos e a busca aproximada por estes. Observou-se que a busca aproximada por vizinhos mais próximos reduz o tempo de busca em aproximadamente 42,6%, mantendo uma boa aproximação com os resultados do baseline. A técnica de quantização dos embeddings apresentou a segunda maior interseção com o baseline e reduziu consideravelmente o consumo de disco pelos índices. Técnicas como a redução de dimensionalidades não apresentaram grandes alterações no tempo de busca e tiveram interseções baixíssimas com o baseline da pesquisa.
Abstract: Geographic regions representation has been the main target of several researches in the last years, as it is the key component for performing various tasks, such as searching for similar regions. However, such representation is not a trivial task, as it may involve numerous variables in the process. The current trend is for these representations to be made using high-dimensional vectors, known as embeddings. However, search operations for these tend to be resource-intensive for the machine in terms of processing time and disk usage. In this article we experimented with different kinds of manipulation on these vectors in order to reduce the consumption of computational resources during the search without significantly impacting the relevance of the results produced. Vector dimensionality reduction techniques and the quantization of its elements were performed, in addition to comparing the exact search for nearest neighbors and the approximate search for them. We observed that the approximate search for nearest neighbors reduces the search time by approximately 42,6%, while still maintaining a good approximation with the baseline results. The embeddings quantization technique showed the second-best intersection with the baseline results and significantly reduced disk usage by the indexes. Techniques such as dimensionality reduction did not result in significant changes in the search time and had very low intersection with the research baseline.
Keywords: Embeddings
Pontos de Interesse (POI)
Técnicas de Redução de Dimensionalidade
Word2Vec
K-Nearest Neighbors (KNN)
Aproximate Nearest Neighbors (ANN)
Points of Interest (POI)
Dimensionality Reduction Techniques
???metadata.dc.subject.cnpq???: Ciência da Computação
URI: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/38189
Appears in Collections:Trabalho de Conclusão de Curso - Artigo - Ciência da Computação

Files in This Item:
File Description SizeFormat 
JOSE IGOR DE FARIAS GOMES-ARTIGO-CIÊNCIA DA COMPUTAÇÃO-CEEI (2024).pdf691.65 kBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.