
São Paulo — InkDesign News —
A pesquisa recente sobre inteligência artificial (AI) revelou que chatbots baseados em aprendizado de máquina (machine learning) tendem a superestimar sua própria confiança, mesmo quando suas respostas estão incorretas. O estudo, realizado por pesquisadores de instituições renomadas, explorou a interação entre humanos e modelos de linguagem grandes (LLMs) em várias tarefas cognitivas.
Contexto da pesquisa
A confiança dos LLMs em suas respostas foi investigada em um estudo que envolveu tanto participantes humanos quanto quatro LLMs de ponta, como ChatGPT e Bard/Gemini. Os participantes foram questionados sobre seu desempenho em tarefas de perguntas e respostas, previsões de eventos esportivos e identificação de imagens. O objetivo era entender como a confiança dos LLMs se compara à dos humanos na realização de tarefas similares.
Método proposto
Os pesquisadores aplicaram um modelo experimental onde tanto humanos quanto LLMs foram solicitados a estimar sua capacidade de resposta antes e depois de completarem as tarefas. As perguntas incluíam temas variados, como resultados de jogos da NFL e premiações do Oscar, para medir tanto o desempenho quanto a autoavaliação. Embora os humanos demostrassem uma capacidade de ajustar suas expectativas, os LLMs geralmente permaneceram excessivamente confiantes em suas habilidades.
Resultados e impacto
Os resultados mostraram uma discrepância significativa entre a confiança e a precisão das respostas. “Os humanos, por exemplo, frequentemente superestimaram seu desempenho inicial, mas ajustaram suas expectativas posteriormente”, explicou Trent Cash, um dos autores do estudo. “Já os LLMs, ao contrário, tendiam a aumentar sua confiança mesmo após um desempenho ruim” (
“Os humanos, por exemplo, frequentemente superestimaram seu desempenho inicial, mas ajustaram suas expectativas posteriormente”
(“Say the people told us they were going to get 18 questions right, and they ended up getting 15 questions right. Typically, their estimate afterwards would be something like 16 correct answers,” said Trent Cash, who recently completed a joint Ph.D. at Carnegie Mellon University in the departments of Social Decision Science and Psychology.)— Trent Cash, Pesquisador, Carnegie Mellon University
). Isso levanta questões sobre a confiabilidade das respostas geradas por chatbots, especialmente em contextos críticos.
Embora a precisão em previsões varie, a pesquisa revela que perguntas de eventos futuros ou assuntos subjetivos muitas vezes expõem a falta de autoconhecimento dos LLMs. “Ainda não sabemos exatamente como a AI estima sua confiança”, disse Danny Oppenheimer, coautor do estudo. “Mas parece não envolver introspecção, pelo menos não de maneira eficiente” (
“Ainda não sabemos exatamente como a AI estima sua confiança”
(“We still don’t know exactly how AI estimates its confidence,” said Oppenheimer, “but it appears not to engage in introspection, at least not skillfully.”)— Danny Oppenheimer, Professor, Carnegie Mellon University
).
Esses resultados sugerem que usuários devem ser cautelosos ao confiar totalmente nas respostas de chatbots em decisões importantes. Uma das próximas etapas possíveis inclui o aprimoramento do aprendizado dos LLMs por meio do uso de conjuntos de dados maiores e variáveis, visando uma melhor capacidade de avaliar sua própria performance.
Fonte: (TechXplore – Machine Learning & AI)