- Publicidade -
- Publicidade -
- Publicidade -
AI, ML & Deep Learning

Reduzimos custos de LLM em 90% com 5 linhas de código

- Publicidade -
- Publicidade -

São Paulo — InkDesign News —Recentemente, uma análise detalhada destacou como otimizações em algoritmos de machine learning podem levar a reduções significativas nos custos operacionais. Um estudo demonstrou como modificações simples em uma implementação assíncrona resultaram em uma diminuição de 90% nas chamadas ao modelo sem sacrificar a eficiência.

Arquitetura de modelo

A abordagem inicial utilizava uma sequência de chamadas assíncronas em um script Python, que se conectava a um servidor FastAPI para validação de respostas. O sistema, projetado para processar um conjunto de dados limitado, falhou em gerenciar a quantidade de requisições enviadas ao servidor, resultando em excessos significativos de tráfego.

“O cliente estava fazendo mais trabalho do que o necessário, enviando requisições em massa, mesmo após parar de processar respostas.”
(“the client was doing a lot more work than it needed to, sending requests en masse, even after stopping processing responses.”)

— Engenheiro de Software, Análise Interna

Treinamento e otimização

Ao observar a performance, foi revelado que todas as requisições eram realizadas de uma só vez, independentemente do número de respostas desejadas. A chave para a otimização foi a introdução de um semafor para controlar a concorrência nas requisições. Isso permitiu que apenas um número limitado de chamadas fosse executado ao mesmo tempo, reduzindo a carga no servidor.

“Essa mudança estrutural não só melhorou a eficiência, mas também proporcionou uma experiência do cliente mais fluida.”
(“this structural change not only improved efficiency but also provided a smoother customer experience.”)

— Cientista de Dados, Projeto de Avaliação

Resultados e métricas

Após a implementação das alterações, a equipe observou uma redução drástica no volume de chamadas, alcançando 90% de diminuição nos custos associados ao modelo de linguagem. As métricas mostraram uma melhoria tanto na taxa de sucesso das requisições quanto na velocidade de resposta, permitindo um trabalho mais eficiente sem a necessidade de recursos adicionais.

As aplicações práticas dessa solução se estendem à eficiência no uso de recursos computacionais em outros projetos de inteligência artificial, e demonstram a importância de um design cuidadoso em sistemas assíncronos. O foco em “usar o que realmente precisamos” pode conduzir a melhorias significativas em diversas áreas.

Fonte: (Towards Data Science – AI, ML & Deep Learning)

- Publicidade -
- Publicidade -

Tiago F Santiago

Tiago F. Santiago é Analista de Marketing na C2HSolutions, onde, em sua atuação fixa, combina estratégia e tecnologia para impulsionar soluções digitais. Paralelamente, dedica-se como hobby à InkDesign News, contribuindo com a criação de notícias e conteúdos jornalísticos. Apaixonado por programação, ele projeta aplicações web e desenvolve sites sob medida, apoiando-se em sua sólida expertise em infraestrutura de nuvem — dominando Amazon Web Services, Microsoft Azure e Google Cloud — para garantir que cada projeto seja escalável, seguro e de alta performance. Sua versatilidade e experiência técnica permitem-lhe transformar ideias em produtos digitais inovadores.

Artigos relacionados

0 0 votos
Classificação do artigo
Inscrever-se
Notificar de
guest

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.

0 Comentários
Mais votado
mais recentes mais antigos
Feedbacks embutidos
Ver todos os comentários
- Publicidade -
Botão Voltar ao topo
0
Adoraria saber sua opinião, comente.x
Fechar

Adblock detectado

Olá! Percebemos que você está usando um bloqueador de anúncios. Para manter nosso conteúdo gratuito e de qualidade, contamos com a receita de publicidade.
Por favor, adicione o InkDesign News à lista de permissões do seu adblocker e recarregue a página.
Obrigado pelo seu apoio!