Apple provoca debate sobre se modelos de AI realmente pensam

São Paulo — InkDesign News — Novas discussões sobre as capacidades de raciocínio dos modelos de linguagem de grande porte (LLMs) emergiram após a publicação de um estudo da Apple intitulado “A Ilusão de Pensar”, que argumenta que esses modelos não realizam raciocínio independente, mas sim uma forma de correspondência de padrões.
Tecnologia e abordagem
O estudo da Apple utilizou problemas clássicos de planejamento, como o Tower of Hanoi, para avaliar o desempenho dos LLMs em tarefas complexas. Os pesquisadores observaram que, conforme a complexidade aumentava, a precisão dos modelos diminuía drasticamente, levando os autores a concluir que os LLMs não são viáveis para alcançar inteligência geral artificial (AGI). A metodologia empregada foi criticada por diversos especialistas, que apontaram falhas na forma como as tarefas foram estruturadas e na avaliação dos resultados.
Aplicação e desempenho
Os LLMs, como o GPT, geralmente utilizam deep learning para gerar respostas baseadas em padrões aprendidos em grandes corpora de texto. No entanto, o estudo da Apple sugeriu que a capacidade de planejamento desses modelos estava limitada. O novo trabalho, “A Ilusão da Ilusão de Pensar”, co-autorado por Claude Opus 4, um LLM, contrapõe essa visão, argumentando que as limitações observadas podem ser um artefato do teste e não indicações de uma falha intrínseca nos modelos. A análise inicial não comparou o desempenho dos LLMs com o dos humanos nas mesmas tarefas.
Impacto e mercado
A controvérsia resultou em um amplo debate sobre como medir a eficácia dos LLMs e levantou questões sobre o impacto dessa tecnologia no mercado. A discussão se concentra na importância da adequação dos testes utilizados para avaliar a capacidade cognitiva dos modelos. O reconhecimento de que fatores como tamanho da janela de contexto e limitações de saída podem influenciar a interpretação dos resultados é crucial para as equipes que desenvolvem sistemas baseados em inteligência artificial.
No futuro, a necessidade de métodos mais robustos para testar as capacidades de raciocínio dos LLMs se torna evidente, especialmente em aplicações que exigem precisão e interpretação complexa.
Fonte: (VentureBeat – AI)