- Publicidade -
- Publicidade -
- Publicidade -
Inteligência Artificial

LLMs produzem nonsense fluente fora da zona de treinamento

- Publicidade -
- Publicidade -

São Paulo — InkDesign News — Um novo estudo da Arizona State University (ASU) reexamina a eficácia do raciocínio “Chain-of-Thought” (CoT) em Modelos de Linguagem Grande (LLMs). Os pesquisadores sugerem que essa abordagem pode ser menos uma demonstração de inteligência genuína e mais uma “miragem frágil”, unindo-se a um corpo crescente de pesquisas que questionam a profundidade do raciocínio em LLMs.

Tecnologia e abordagem

O modelo CoT envolve direcionar um LLM a "pensar passo a passo", o que inicialmente resulta em desempenhos impressionantes em tarefas complexas. Contudo, investigações mais detalhadas revelam inconsistências lógicas que colocam em dúvida essa visão. Os LLMs frequentemente dependem de semântica superficial e padrões já vistos durante o treinamento, o que leva a erros quando se deparam com tarefas não familiares ou informações irrelevantes.

A equipe da ASU utilizou um novo framework chamado DataAlchemy para treinar LLMs menores em ambientes controlados, testando assim a capacidade de generalização do CoT em três dimensões de “mudança de distribuição”: generalização de tarefas, comprimento e formato.

Aplicação e desempenho

Os resultados indicaram que o sucesso do CoT não decorre de uma verdadeira capacidade de raciocínio, mas sim da habilidade do modelo em generalizar para casos fora da distribuição de treinamento. Conforme mencionado, “o raciocínio CoT é mais uma forma sofisticada de correspondência de padrões que depende da distribuição de dados” que o modelo viu durante o treinamento, afirmando que a performance colapsa assim que o modelo é inserido em contextos que divergem dessa distribuição.

Contrapõe-se a isso a observação de que ajustes finos (fine-tuning) em um pequeno conjunto de novos dados não levam a um raciocínio mais abstrato, mas apenas a memorização de novos padrões, um processo que os pesquisadores descreveram como um “remendo”.

“O avanço da ciência deve permanecer centrado no ser humano — as máquinas podem ajudar, mas a descoberta ainda prospera na humanidade e na curiosidade.”
(“The advance of science should remain human-centered—machines can assist, but discovery still thrives on humanity and curiosity.”)

— Chengshuai Zhao, Doutorando, ASU

Impacto e mercado

O estudo traz implicações importantes para desenvolvedores de aplicações que utilizam LLMs. Os autores alertam sobre o risco de depender excessivamente do CoT como uma solução universal para tarefas de raciocínio e enfatizam a importância de auditorias por especialistas da área. Eles recomendam que as validações padrão não são suficientes, sugerindo testes rigorosos que explorem falhas nas dimensões de tarefa, comprimento e formato.

Os desenvolvedores devem tratar o fine-tuning como uma solução pontual e não uma abordagem abrangente. Essa estratégia é crucial para garantir que as capacidades de correspondência de padrões de um modelo estejam alinhadas de maneira precisa com as demandas específicas de uma tarefa empresarial.

Assim, investir em avaliações rigorosas pode transformar as limitações atuais em oportunidades para melhorias direcionadas, mantendo assim uma aplicação eficaz de LLMs em cenários controlados.

Fonte: (VentureBeat – AI)

- Publicidade -
- Publicidade -

Tiago F Santiago

Tiago F. Santiago é Analista de Marketing na C2HSolutions, onde, em sua atuação fixa, combina estratégia e tecnologia para impulsionar soluções digitais. Paralelamente, dedica-se como hobby à InkDesign News, contribuindo com a criação de notícias e conteúdos jornalísticos. Apaixonado por programação, ele projeta aplicações web e desenvolve sites sob medida, apoiando-se em sua sólida expertise em infraestrutura de nuvem — dominando Amazon Web Services, Microsoft Azure e Google Cloud — para garantir que cada projeto seja escalável, seguro e de alta performance. Sua versatilidade e experiência técnica permitem-lhe transformar ideias em produtos digitais inovadores.

Artigos relacionados

0 0 votos
Classificação do artigo
Inscrever-se
Notificar de
guest

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.

0 Comentários
Mais votado
mais recentes mais antigos
Feedbacks embutidos
Ver todos os comentários
- Publicidade -
Botão Voltar ao topo
0
Adoraria saber sua opinião, comente.x
Fechar

Adblock detectado

Olá! Percebemos que você está usando um bloqueador de anúncios. Para manter nosso conteúdo gratuito e de qualidade, contamos com a receita de publicidade.
Por favor, adicione o InkDesign News à lista de permissões do seu adblocker e recarregue a página.
Obrigado pelo seu apoio!