
São Paulo — InkDesign News — Novas pesquisas da Anthropic revelam que modelos de inteligência artificial (IA) que gastam mais tempo "pensando" não necessariamente apresentam melhor desempenho. Os resultados questionam suposições fundamentais relacionadas ao aumento da capacidade de raciocínio em modelos de linguagem de grande escala (LLMs) e têm implicações significativas para a aplicação de tais sistemas em ambientes empresariais.
Tecnologia e abordagem
O estudo identifica um fenômeno denominado "escala inversa no tempo de teste" (inverse scaling in test-time compute). Quando se aumenta o tempo de raciocínio dos modelos de linguagem, sua performance em determinados tipos de tarefas pode piorar. De acordo com os pesquisadores, “construímos tarefas de avaliação onde aumentar a extensão do raciocínio deteriora a performance, exibindo uma relação de escala inversa entre o tempo de computação e a precisão” (
A pesquisa mostra que uma melhor performance não é garantida pela ampliação do tempo de computação.
(“We construct evaluation tasks where extending the reasoning length of Large Reasoning Models (LRMs) deteriorates performance, exhibiting an inverse scaling relationship between test-time compute and accuracy.”)— Aryo Pradipta Gema, Pesquisador, Anthropic
).
Aplicação e desempenho
Os testes foram realizados em quatro categorias de tarefas: problemas de contagem simples, tarefas de regressão com características enganosas, quebra-cabeças complexos de dedução e cenários relacionados a preocupações de segurança da IA. Os modelos Claude da Anthropic apresentaram problemas ao se distrair com informações irrelevantes durante o raciocínio estendido, enquanto os modelos da OpenAI mostraram resistência a distrações, mas tenderam a se adequar excessivamente às formulações dos problemas.
O desempenho emprestou um caráter alarmante quando se considera que todos os modelos analisados apresentaram “degradação de performance com o raciocínio prolongado em tarefas dedutivas complexas” (
Modelos perderam foco ao trabalhar com tarefas complexas de dedução.
(“performance degradation with extended reasoning on complex deductive tasks, suggesting difficulties in maintaining focus during complex deductive tasks.”)— Eurico Pinto, Pesquisador, Anthropic
).
Impacto e mercado
Esses resultados desafiam a crença comum de que mais recursos computacionais sempre melhoram o desempenho da IA. Com a crescente demanda e investimento em "tempo de teste" — estratégia que permite que modelos processem problemas complexos —, os pesquisadores alertam que este aumento pode reforçar padrões de raciocínio problemáticos, levando a novas ineficiências.
Para as empresas, é crucial que decisões sobre a implementação de sistemas de IA levem em consideração esses achados. Um manejo mais sutil da alocação de recursos computacionais pode ser necessário, ao contrário da suposição de que "mais tempo é sempre melhor" no contexto de raciocínio por IA.
A pesquisa sugere que a relação entre investimento computacional e desempenho é mais complexa do que imaginado, e as empresas devem estar atentas a essa dinâmica ao integrar soluções avançadas de IA em suas operações.
Fonte: (VentureBeat – AI)