Alibaba lança ZeroSearch para reduzir custos de treinamento em AI

São Paulo — InkDesign News — Pesquisadores do Alibaba Group desenvolveram a técnica ZeroSearch, que permite ao treinamento de LLMs (modelos de linguagem de grande escala) adquirir capacidades avançadas de busca por simulação, reduzindo custos e eliminando a necessidade de APIs de mecanismos de busca comerciais.
Tecnologia e abordagem
A ZeroSearch utiliza um framework de aprendizado por reforço que não depende de interações com buscadores reais. Inicialmente, um processo leve de fine-tuning supervisionado transforma o LLM em um módulo de recuperação capaz de gerar documentos relevantes e irrelevantes simulados. Durante o treinamento, uma estratégia baseada em currículo degrada progressivamente a qualidade dos documentos gerados. A abordagem se baseia no conhecimento prévio generalizado dos LLMs para simular resultados de busca, diferenciando-se apenas no estilo textual dos conteúdos retornados.
“O aprendizado por reforço exige muitas execuções, potencialmente envolvendo centenas de milhares de requisições de busca, que geram custos substanciais com APIs e limitam a escalabilidade. Para isso, introduzimos o ZeroSearch, um framework que incentiva a capacidade de busca dos LLMs sem interação com buscadores reais.”
(“Reinforcement learning [RL] training requires frequent rollouts, potentially involving hundreds of thousands of search requests, which incur substantial API expenses and severely constrain scalability. To address these challenges, we introduce ZeroSearch, a reinforcement learning framework that incentivizes the search capabilities of LLMs without interacting with real search engines.”)— Pesquisadores, Alibaba Group
Aplicação e desempenho
Em testes feitos com sete bases de dados de perguntas e respostas, ZeroSearch realizou performances equivalentes ou superiores aos modelos treinados com buscadores reais. Um módulo com 7 bilhões de parâmetros apresentou resultados comparáveis ao Google Search, enquanto a versão de 14 bilhões superou a concorrência. A economia é significativa: enquanto 64 mil consultas via Google Search custariam cerca de US$ 586,70, a simulação em LLM 14B utilizando GPUs A100 foi de US$ 70,80, uma redução de 88%.
Impacto e mercado
A técnica representa uma mudança no desenvolvimento de assistentes de IA que buscam informações autonomamente, reduzindo dependência de APIs de grandes plataformas tecnológicas e democratizando o acesso para startups e empresas menores. Além dos custos, a simulação oferece controle maior sobre a qualidade dos dados durante o treinamento, uma limitação frequente nas buscas reais. O método funciona com diversas famílias de modelos, incluindo Qwen-2.5 e LLaMA-3.2, e está disponível no GitHub e Hugging Face.
“Isso demonstra a viabilidade do uso de um LLM bem treinado como substituto para buscadores reais em setups de aprendizado por reforço.”
(“This demonstrates the feasibility of using a well-trained LLM as a substitute for real search engines in reinforcement learning setups.”)— Pesquisadores, Alibaba Group
O avanço sugere um futuro em que sistemas de IA desenvolvam capacidades sofisticadas por auto-simulação, alterando a economia e a dinâmica da indústria de inteligência artificial.
Fonte: (VentureBeat – AI)