DSpace/Manakin Repository

Using semantic cache to spare resources of LLM-powered features.

Mostrar registro simples

dc.creator.ID NÓBREGA, H. L. pt_BR
dc.creator.Lattes http://lattes.cnpq.br/5444210624277381 pt_BR
dc.contributor.advisor1 BRUNET, João Arthur Monteiro.
dc.contributor.advisor1ID BRUNET, J. A. M. pt_BR
dc.contributor.advisor1Lattes http://lattes.cnpq.br/7892247821251194 pt_BR
dc.contributor.referee1 ALMEIDA, Hyggo Oliveira de.
dc.contributor.referee1ID ALMEIDA, H. O. pt_BR
dc.contributor.referee1Lattes http://lattes.cnpq.br/4993914550234923 pt_BR
dc.contributor.referee2 BRASILEIRO, Francisco Vilar.
dc.contributor.referee2ID BRASILEIRO, F. pt_BR
dc.contributor.referee2Lattes http://lattes.cnpq.br/5957855817378897 pt_BR
dc.description.resumo Modelos de Linguagem de Grande Escala (LLMs), como o ChatGPT, Claude e Llama 2, revolucionaram o processamento de linguagem natural, criando novos casos de uso para aplicações que utilizam esses modelos em seus fluxos de trabalho. No entanto, os altos custos computacionais desses modelos acarretam problemas de custo e latência, impedindo a escalabilidade de funcionalidades baseadas em LLM para muitos serviços e produtos, especialmente quando dependem de modelos com melhores capacidades de raciocínio, como o GPT-4 ou o Claude 3 Opus. Além disso, muitas consultas a esses modelos são duplicadas. O cache tradicional é uma solução natural para esse problema, mas sua incapacidade de determinar se duas consultas são semanticamente equivalentes leva a baixas taxas de cache hit. Neste trabalho, propomos explorar o uso de cache semântico, que considera o significado das consultas em vez de sua formulação exata, para melhorar a eficiência de aplicações baseadas em LLM. Realizamos um experimento usando um conjunto de dados real da Alura, uma empresa brasileira de educação, em um cenário onde um aluno responde a uma pergunta e o GPT-4 corrige a resposta. Os resultados mostraram que 45,1% das solicitações feitas ao LLM poderiam ter sido atendidas a partir do cache usando um limiar de similaridade de 0.98, com uma melhoria de 4-10 vezes na latência. Esses resultados demonstram o potencial do cache semântico para melhorar a eficiência de funcionalidades baseadas em LLM, reduzindo custos e latência enquanto mantém os benefícios de modelos avançados de linguagem como o GPT-4. Essa abordagem poderia possibilitar a escalabilidade de funcionalidades baseadas em LLM para uma gama mais ampla de aplicações, avançando na adoção desses modelos poderosos em diversos domínios. pt_BR
dc.publisher.country Brasil pt_BR
dc.publisher.department Centro de Engenharia Elétrica e Informática - CEEI pt_BR
dc.publisher.initials UFCG pt_BR
dc.subject.cnpq Ciência da Computação pt_BR
dc.title Using semantic cache to spare resources of LLM-powered features. pt_BR
dc.date.issued 2024-05-15
dc.description.abstract Large Language Models (LLMs) such as ChatGPT, Claude and Llama 2 have revolutionized natural language processing, creating many new use cases for applications that use these models in their workflows. However, the high computational costs of these models lead to issues with cost and latency, preventing the scalability of LLM-based features to many services and products especially whenthey depend on models with better reasoning capabilities, such as GPT-4 or Claude 3 Opus. Additionally, many queries to these models are duplicated. Traditional caching is a natural solution to this problem, but its inability to determine if two queries are semantically equivalent leads to low cache hit rates. In this work, we propose exploring the use of semantic caching, which considers the meaning of queries rather than their exact wording, to improve the efficiency of LLM-based applications. We conducted an experiment using a real dataset from Alura, a Brazilian EdTech company, in a scenario where a student answers a question and GPT-4 corrects the answer. The results showed that 45.1% of the requests made to the LLM could have been served from the cache using a similarity threshold of 0.98, with a 4-10x improvement in latency. These results demonstrate the potential of semantic caching to improve the efficiency of LLM-based features, reducing costs and latency while maintaining the benefits of advanced language models like GPT-4. This approach could enable the scalability of LLM-based features to a wider range of applications, advancing the adoption of these powerful models in various domains. pt_BR
dc.identifier.uri http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/38145
dc.date.accessioned 2024-09-28T17:18:35Z
dc.date.available 2024-09-28
dc.date.available 2024-09-28T17:18:35Z
dc.type Trabalho de Conclusão de Curso pt_BR
dc.subject Semantic Caching pt_BR
dc.subject Large Language Models (LLMs) pt_BR
dc.subject Linguagem de Grande Escala (LLMs) pt_BR
dc.subject Semantic Caching pt_BR
dc.rights Acesso Aberto pt_BR
dc.creator NÓBREGA, Henrique Lopes.
dc.publisher Universidade Federal de Campina Grande pt_BR
dc.language por pt_BR
dc.title.alternative Uso de cache semântico para economizar recursos em funcionalidades providas por LLMS. pt_BR
dc.identifier.citation NÓBREGA, Henrique Lopes. Using semantic cache to spare resources of LLM-powered features. 2024. 10 f. Artigo (Bacharelado em Ciência da Computação) -Universidade Federal de Campina Grande, Centro de Engenharia Elétrica e Informática, Campina Grande, Paraíba, Brasil, 2024. pt_BR


Arquivos deste item

Este item aparece na(s) seguinte(s) coleção(s)

Mostrar registro simples

Buscar DSpace


Busca avançada

Navegar

Minha conta