
São Paulo — InkDesign News — Meta anunciou uma parceria técnica com a Cerebras Systems para lançar a Llama API, uma interface que promete acelerar a inferência de modelos de linguagem natural (LLM) em até 18 vezes em comparação com soluções baseadas em GPU tradicionais. A iniciativa visa fortalecer a presença da empresa no mercado de inteligência artificial (IA) comercial, oferecendo serviços de deep learning com alta velocidade e escalabilidade.
Tecnologia e abordagem
A Llama API utiliza os modelos abertos Llama 4, rodando sobre os chips especializados da Cerebras, que alcançam taxas de processamento de até 2.648 tokens por segundo. Em comparação, serviços como ChatGPT alcançam cerca de 130 tokens por segundo. Essa aceleração é possível devido ao design dos chips wafer-scale da Cerebras, otimizados para cargas computacionais intensivas de IA.
“A Meta selecionou a Cerebras para entregar a inferência ultrarrápida necessária aos desenvolvedores através da nova Llama API.”
(“Meta has selected Cerebras to collaborate to deliver the ultra-fast inference that they need to serve developers through their new Llama API.”)— Julie Shin Choi, Chief Marketing Officer, Cerebras
Aplicação e desempenho
A enorme velocidade de inferência abre possibilidades para aplicações que exigem baixa latência e múltiplas chamadas de modelo em sequência, como agentes de raciocínio complexo em tempo real, sistemas conversacionais por voz de baixa latência e geração interativa de código. Os benchmarks indicam um desempenho até 20 vezes superior ao de concorrentes que utilizam GPUs tradicionais, como Google e OpenAI, posicionando a Meta como um ator competitivo na infraestrutura de IA.
“Se você comparar modelo a modelo, Gemini e GPT são ótimos, mas todos operam na velocidade das GPUs, cerca de 100 tokens por segundo, o que é lento para raciocínio e agentes.”
(“If you just compare on API-to-API basis, Gemini and GPT, they’re all great models, but they all run at GPU speeds, which is roughly about 100 tokens per second. And 100 tokens per second is okay for chat, but it’s very slow for reasoning. It’s very slow for agents.”)— James Wang, Executivo Sênior, Cerebras
Impacto e mercado
Ao transformar seus modelos Llama, que já foram baixados mais de um bilhão de vezes, em uma oferta comercial via API, a Meta entra firmemente no mercado de venda de tokens de IA, competindo com OpenAI, Anthropic e Google. A parceria com a Cerebras permite acesso a uma infraestrutura de maior capacidade distribuída em data centers na América do Norte, garantindo atendimento balanceado e redução de latência para os desenvolvedores.
“A Meta agora está no negócio de vender tokens, o que é ótimo para o ecossistema americano de IA.”
(“Meta is now in the business of selling tokens, and it’s great for the American kind of AI ecosystem.”)— James Wang, Executivo Sênior, Cerebras
A plataforma oferece ainda ferramentas para ajuste fino e avaliação dos modelos, permitindo que desenvolvedores treinem com dados personalizados sem que a Meta utilize esses dados para seu próprio treinamento, ampliando a flexibilidade da solução. A Meta planeja expandir o acesso à API nos próximos meses, consolidando-se como um player de infraestrutura de IA de alta performance.
Fonte: (VentureBeat – AI)