Together AI otimiza AI com 400% mais velocidade de inferência

São Paulo — InkDesign News — A crescente adoção de inteligência artificial (IA) e modelos de linguagem (LLM) nas empresas está levando a um novo desafio: o desempenho decrescente em tarefas de inferência. A Together AI apresentou uma solução inovadora, chamada ATLAS, que promete otimizar essas operações.
Tecnologia e abordagem
A ATLAS, ou Sistema de Especulação de Aprendizado Adaptativo, é projetada para superar o problema dos "especuladores estáticos", que se tornam ineficientes conforme as demandas de carga de trabalho mudam. Essa abordagem utiliza um modelo de dois especuladores: o especulador estático, um modelo robusto treinado em dados abrangentes, e o especulador adaptativo, um modelo leve que aprende continuamente com o tráfego ao vivo, adaptando-se a novos padrões de uso.
“Se você é uma empresa que produz agentes de codificação, e a maioria dos seus desenvolvedores começa a escrever em Rust ou C, você verá a redução de velocidade.”
(“If you’re a company producing coding agents, and most of your developers have been writing in Python, all of a sudden some of them switch to writing Rust or C, then you see the speed starts to go down.”)— Tri Dao, Cientista Chefe, Together AI
Aplicação e desempenho
A arquitetura dual da ATLAS permite escolher dinamicamente entre os dois especuladores, aumentando a eficiência durante o processo de inferência. Em testes, a ATLAS atingiu uma taxa de 500 tokens por segundo utilizando GPUs Nvidia B200, uma performance que rivaliza com chips de inferência especializados. Essa solução não apenas reduz a latência, mas também melhora a utilização do hardware, convertendo capacidade de computação em ganhos de velocidade.
“O software e a melhoria algorítmica estão conseguindo fechar a lacuna com hardware realmente especializado.”
(“The software and algorithmic improvement is able to close the gap with really specialized hardware.”)— Tri Dao, Cientista Chefe, Together AI
Impacto e mercado
Em um cenário onde as cargas de trabalho estão em constante evolução, a necessidade de soluções adaptativas se torna evidente. Empresas que utilizam a ATLAS podem se beneficiar de um aumento de até 400% na velocidade de inferência, sem a necessidade de hardware personalizado caro. Esta abordagem, que implica uma mudança fundamental na forma como as plataformas de inferência devem operar, pode ser um divisor de águas para a indústria de IA.
À medida que a tecnologia continua a evoluir, empresas que adotarem algoritmos adaptativos podem obter vantagens competitivas significativas, elevando suas capacidades de inteligência artificial a um novo patamar.
Fonte: (VentureBeat – AI)