
São Paulo — InkDesign News — Um novo estudo da Arizona State University (ASU) reexamina a eficácia do raciocínio “Chain-of-Thought” (CoT) em Modelos de Linguagem Grande (LLMs). Os pesquisadores sugerem que essa abordagem pode ser menos uma demonstração de inteligência genuína e mais uma “miragem frágil”, unindo-se a um corpo crescente de pesquisas que questionam a profundidade do raciocínio em LLMs.
Tecnologia e abordagem
O modelo CoT envolve direcionar um LLM a "pensar passo a passo", o que inicialmente resulta em desempenhos impressionantes em tarefas complexas. Contudo, investigações mais detalhadas revelam inconsistências lógicas que colocam em dúvida essa visão. Os LLMs frequentemente dependem de semântica superficial e padrões já vistos durante o treinamento, o que leva a erros quando se deparam com tarefas não familiares ou informações irrelevantes.
A equipe da ASU utilizou um novo framework chamado DataAlchemy para treinar LLMs menores em ambientes controlados, testando assim a capacidade de generalização do CoT em três dimensões de “mudança de distribuição”: generalização de tarefas, comprimento e formato.
Aplicação e desempenho
Os resultados indicaram que o sucesso do CoT não decorre de uma verdadeira capacidade de raciocínio, mas sim da habilidade do modelo em generalizar para casos fora da distribuição de treinamento. Conforme mencionado, “o raciocínio CoT é mais uma forma sofisticada de correspondência de padrões que depende da distribuição de dados” que o modelo viu durante o treinamento, afirmando que a performance colapsa assim que o modelo é inserido em contextos que divergem dessa distribuição.
Contrapõe-se a isso a observação de que ajustes finos (fine-tuning) em um pequeno conjunto de novos dados não levam a um raciocínio mais abstrato, mas apenas a memorização de novos padrões, um processo que os pesquisadores descreveram como um “remendo”.
“O avanço da ciência deve permanecer centrado no ser humano — as máquinas podem ajudar, mas a descoberta ainda prospera na humanidade e na curiosidade.”
(“The advance of science should remain human-centered—machines can assist, but discovery still thrives on humanity and curiosity.”)— Chengshuai Zhao, Doutorando, ASU
Impacto e mercado
O estudo traz implicações importantes para desenvolvedores de aplicações que utilizam LLMs. Os autores alertam sobre o risco de depender excessivamente do CoT como uma solução universal para tarefas de raciocínio e enfatizam a importância de auditorias por especialistas da área. Eles recomendam que as validações padrão não são suficientes, sugerindo testes rigorosos que explorem falhas nas dimensões de tarefa, comprimento e formato.
Os desenvolvedores devem tratar o fine-tuning como uma solução pontual e não uma abordagem abrangente. Essa estratégia é crucial para garantir que as capacidades de correspondência de padrões de um modelo estejam alinhadas de maneira precisa com as demandas específicas de uma tarefa empresarial.
Assim, investir em avaliações rigorosas pode transformar as limitações atuais em oportunidades para melhorias direcionadas, mantendo assim uma aplicação eficaz de LLMs em cenários controlados.
Fonte: (VentureBeat – AI)