Using semantic cache to spare resources of LLM-powered features.

Página inicial
→
Campus Campina Grande | Centro de Engenharia Elétrica e Informática - CEEI
→
CURSOS DE GRADUAÇÃO DO CEEI
→
Curso de Bacharelado em Ciência da Computação
→
Trabalho de Conclusão de Curso - Artigo - Ciência da Computação
→
Ver item

dc.creator.ID	NÓBREGA, H. L.	pt_BR
dc.creator.Lattes	http://lattes.cnpq.br/5444210624277381	pt_BR
dc.contributor.advisor1	BRUNET, João Arthur Monteiro.
dc.contributor.advisor1ID	BRUNET, J. A. M.	pt_BR
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/7892247821251194	pt_BR
dc.contributor.referee1	ALMEIDA, Hyggo Oliveira de.
dc.contributor.referee1ID	ALMEIDA, H. O.	pt_BR
dc.contributor.referee1Lattes	http://lattes.cnpq.br/4993914550234923	pt_BR
dc.contributor.referee2	BRASILEIRO, Francisco Vilar.
dc.contributor.referee2ID	BRASILEIRO, F.	pt_BR
dc.contributor.referee2Lattes	http://lattes.cnpq.br/5957855817378897	pt_BR
dc.description.resumo	Modelos de Linguagem de Grande Escala (LLMs), como o ChatGPT, Claude e Llama 2, revolucionaram o processamento de linguagem natural, criando novos casos de uso para aplicações que utilizam esses modelos em seus fluxos de trabalho. No entanto, os altos custos computacionais desses modelos acarretam problemas de custo e latência, impedindo a escalabilidade de funcionalidades baseadas em LLM para muitos serviços e produtos, especialmente quando dependem de modelos com melhores capacidades de raciocínio, como o GPT-4 ou o Claude 3 Opus. Além disso, muitas consultas a esses modelos são duplicadas. O cache tradicional é uma solução natural para esse problema, mas sua incapacidade de determinar se duas consultas são semanticamente equivalentes leva a baixas taxas de cache hit. Neste trabalho, propomos explorar o uso de cache semântico, que considera o significado das consultas em vez de sua formulação exata, para melhorar a eficiência de aplicações baseadas em LLM. Realizamos um experimento usando um conjunto de dados real da Alura, uma empresa brasileira de educação, em um cenário onde um aluno responde a uma pergunta e o GPT-4 corrige a resposta. Os resultados mostraram que 45,1% das solicitações feitas ao LLM poderiam ter sido atendidas a partir do cache usando um limiar de similaridade de 0.98, com uma melhoria de 4-10 vezes na latência. Esses resultados demonstram o potencial do cache semântico para melhorar a eficiência de funcionalidades baseadas em LLM, reduzindo custos e latência enquanto mantém os benefícios de modelos avançados de linguagem como o GPT-4. Essa abordagem poderia possibilitar a escalabilidade de funcionalidades baseadas em LLM para uma gama mais ampla de aplicações, avançando na adoção desses modelos poderosos em diversos domínios.	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	Centro de Engenharia Elétrica e Informática - CEEI	pt_BR
dc.publisher.initials	UFCG	pt_BR
dc.subject.cnpq	Ciência da Computação	pt_BR
dc.title	Using semantic cache to spare resources of LLM-powered features.	pt_BR
dc.date.issued	2024-05-15
dc.description.abstract	Large Language Models (LLMs) such as ChatGPT, Claude and Llama 2 have revolutionized natural language processing, creating many new use cases for applications that use these models in their workflows. However, the high computational costs of these models lead to issues with cost and latency, preventing the scalability of LLM-based features to many services and products especially whenthey depend on models with better reasoning capabilities, such as GPT-4 or Claude 3 Opus. Additionally, many queries to these models are duplicated. Traditional caching is a natural solution to this problem, but its inability to determine if two queries are semantically equivalent leads to low cache hit rates. In this work, we propose exploring the use of semantic caching, which considers the meaning of queries rather than their exact wording, to improve the efficiency of LLM-based applications. We conducted an experiment using a real dataset from Alura, a Brazilian EdTech company, in a scenario where a student answers a question and GPT-4 corrects the answer. The results showed that 45.1% of the requests made to the LLM could have been served from the cache using a similarity threshold of 0.98, with a 4-10x improvement in latency. These results demonstrate the potential of semantic caching to improve the efficiency of LLM-based features, reducing costs and latency while maintaining the benefits of advanced language models like GPT-4. This approach could enable the scalability of LLM-based features to a wider range of applications, advancing the adoption of these powerful models in various domains.	pt_BR
dc.identifier.uri	http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/38145
dc.date.accessioned	2024-09-28T17:18:35Z
dc.date.available	2024-09-28
dc.date.available	2024-09-28T17:18:35Z
dc.type	Trabalho de Conclusão de Curso	pt_BR
dc.subject	Semantic Caching	pt_BR
dc.subject	Large Language Models (LLMs)	pt_BR
dc.subject	Linguagem de Grande Escala (LLMs)	pt_BR
dc.subject	Semantic Caching	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.creator	NÓBREGA, Henrique Lopes.
dc.publisher	Universidade Federal de Campina Grande	pt_BR
dc.language	por	pt_BR
dc.title.alternative	Uso de cache semântico para economizar recursos em funcionalidades providas por LLMS.	pt_BR
dc.identifier.citation	NÓBREGA, Henrique Lopes. Using semantic cache to spare resources of LLM-powered features. 2024. 10 f. Artigo (Bacharelado em Ciência da Computação) -Universidade Federal de Campina Grande, Centro de Engenharia Elétrica e Informática, Campina Grande, Paraíba, Brasil, 2024.	pt_BR