Método investiga se LLMs estão mentindo em explicações

- Publicidade -

Tiago F Santiago 05/06/2025Última Atualização 05/06/2025

0 102 2 minutos de leitura

Modelos de IA facilitam a confiança em chatbots — Credit: Airam Dato-on from Pexels

- Publicidade -

São Paulo — InkDesign News —

A pesquisa em inteligência artificial (IA) e machine learning avança rapidamente, com acadêmicos focando na integridade das explicações fornecidas por modelos de linguagem. Um estudo recente proposto por pesquisadores do laboratório CSAIL, do MIT, aborda a “fidelidade” das explicações dos modelos, oferecendo um novo método para avaliar a precisão dessas justificativas.

Contexto da pesquisa

Com o aumento da utilização de modelos de linguagem de grande escala (LLMs), a questão da transparência em suas decisões se torna mais relevante. Esses modelos, como demonstrado em experimentos anteriores, podem oferecer explicações que são plausíveis, mas não necessariamente fiéis à lógica que fundamenta suas respostas.

Método proposto

A pesquisa introduz a “fidelidade de conceito causal”, que mede a diferença entre conceitos que o modelo sugere como influentes e aqueles que realmente afetam suas respostas. O processo envolve o uso de um LLM auxiliar para identificar conceitos-chave em consultas de entrada. Depois, os pesquisadores avaliam se mudanças nesses conceitos alteram as respostas do LLM primário. Para gerar perguntas contrafactuais, o LLM auxiliar modifica valores de conceitos, como gênero ou informações clínicas, coletando as respostas subsequentes do modelo primário.

“Se um LLM produz explicações plausíveis, mas infiéis, os usuários podem desenvolver falsa confiança em suas respostas.”
(“If an LLM produces plausible yet unfaithful explanations, users might develop false confidence in its responses.”)

— Katie Matton, Estudante de doutorado, CSAIL

Resultados e impacto

Os testes empíricos compararam o desempenho de modelos como GPT-3.5, GPT-4o e Claude-3.5-Sonnet em dois conjuntos de dados de perguntas e respostas. Os pesquisadores notaram que, em um conjunto de dados voltado para viés social, muitos LLMs mascaram sua dependência de informações identitárias, justificando decisões com base em comportamentos em vez de dados demográficos.

Em uma análise de questões médicas, a técnica revelou que algumas explicações omitiram evidências críticas que poderiam impactar as decisões sobre tratamento e cuidados com o paciente. Embora a abordagem apresente limitações — como confiar em um LLM auxiliar que pode cometer erros —, os autores sugerem que a relação entre explicações enganadoras e suas causas pode ser usada para melhorar a transparência em sistemas de IA.

Com a aplicação dessa metodologia, usuários que identificarem viés de gênero, por exemplo, podem optar por não usar tais modelos em comparações entre diferentes gêneros. Os pesquisadores acreditam que essa abordagem é um passo importante para a criação de sistemas de IA mais confiáveis e transparentes.

Fonte: (TechXplore – Machine Learning & AI)

[ad_1] [ad_2]

- Publicidade -

Etiquetas