
San Francisco — InkDesign News — Um estudo recente conduzido por pesquisadores da OpenAI, publicado em Live Science, analisa em profundidade as “alucinações” — quando sistemas de IA como o ChatGPT inventam informações falsas —, oferecendo a explicação matemática mais rigorosa até hoje para esse fenômeno e destacando a dificuldade de erradicá-lo.
O Contexto da Pesquisa
Diversos relatos e estudos prévios já indicavam que modelos de linguagem de grande porte, como GPT e similares, frequentemente apresentam respostas inventadas, fenômeno chamado de “alucinação”. Ao contrário do que se acreditava, a origem desse problema vai além de simples falhas nos dados de treinamento: trata-se de uma limitação matemática inerente ao modo como essas IAs operam.
“Esses modelos não apenas reproduzem informações erradas por conta de treinamentos imperfeitos, mas, mesmo com dados perfeitos, certos tipos de erro permanecem inevitáveis.”
(“These models not only repeat wrong information due to imperfect training, but even with perfect data, certain types of errors remain inevitable.”)— Adam Kalai, Pesquisador, OpenAI
Resultados e Metodologia
O artigo demonstra que respostas “inventadas” são consequência direta da arquitetura probabilística dos modelos, onerando principalmente perguntas abertas ou multifacetadas. A equipe calculou que a taxa de erro em sentenças completas pode ser pelo menos o dobro da observada em respostas de “sim” ou “não”, já que pequenos enganos acumulam-se ao longo das previsões palavra a palavra.
Ao analisar o mecanismo de avaliação dos benchmarks usados internacionalmente, os autores identificaram que a maioria penaliza respostas incertas (“não sei”) do mesmo modo que respostas erradas. Isso leva os modelos a preferirem “chutar” respostas ao invés de declarar desconhecimento, maximizando a incidência das alucinações.
“A estratégia ótima, sob tais avaliações, é sempre tentar uma resposta, independente do grau de certeza.”
(“The optimal strategy, under such evaluations, is always to try an answer, regardless of the confidence level.”)— Equipe de pesquisa, OpenAI
Os testes práticos mostraram, por exemplo, que ao serem questionados sobre a data de aniversário de um dos autores, modelos de ponta forneceram três datas diferentes — todas incorretas e distantes da real.
Implicações e Próximos Passos
O estudo sugere que, ao incentivar modelos que expressem incerteza proporcional ao risco da resposta, seria possível reduzir as alucinações de IA. No entanto, isso exigiria maior poder computacional e mudaria profundamente a experiência do usuário, que passaria a receber frequentemente mensagens como “não sei”. Além disso, a atual lógica de competição comercial e operacional, que premia respostas rápidas e aparentemente seguras, mantém a tendência de respostas inventadas.
Para áreas críticas — como logística, diagnóstico médico e finanças —, investir em IAs que ponderam incertezas se mostra imprescindível, apesar dos custos elevados. Entretanto, para o grande público, a pressão por eficiência continuará dificultando a implementação de sistemas mais cautelosos.
Espera-se que, à medida que a tecnologia avance e o custo computacional caia, abordagens mais sofisticadas e conscientes quanto à incerteza possam se tornar viáveis também para aplicações de larga escala. O desafio, porém, é aliar interesses econômicos, avanços técnicos e a necessidade crescente de confiança nas respostas da inteligência artificial.
Fonte: (Live Science – Ciência)