Modelos de machine learning identificam reportagens científicas enganosas

Pesquisa em IA Identifica Informações Científicas Enganosas
São Paulo — InkDesign News — Um novo estudo desenvolvido no Stevens Institute of Technology investiga como o machine learning pode ser utilizado para detectar informações enganosas em reportagens científicas.
Contexto da pesquisa
A integridade da informação é um tema crescente na era digital, especialmente em áreas como a ciência, onde dados incorretos podem ter repercussões significativas. A equipe de pesquisa liderada por K.P. Subbalakshmi busca automatizar a identificação de alegações enganosas utilizando modelos de linguagem de grande porte (LLMs).
Método proposto
O estudo se baseia em um novo conjunto de dados que inclui 2.400 reportagens relacionadas a descobertas científicas, mesclando relatos humanos e gerados por IA. O modelo LLM desenvolvido adota uma abordagem em três etapas: primeiro, ele sintetiza cada notícia e identifica características relevantes; em seguida, realiza comparações detalhadas entre as alegações do resumo e evidências das pesquisas originais; por fim, o modelo determina a precisão da reportagem. “Criar esse conjunto de dados é uma contribuição importante, já que a maioria dos conjuntos existentes não inclui informações que possam ser utilizadas para testar sistemas destinados a detectar imprecisões na prática” — K.P. Subbalakshmi, Professor.
Resultados e impacto
Os resultados indicam que os pipelines LLM da equipe conseguiram distinguir entre reportagens confiáveis e não confiáveis com uma acurácia de cerca de 75%, sendo mais eficazes na identificação de imprecisões em conteúdos gerados por humanos do que em textos gerados por IA. A equipe sugere que “há espaço para melhorias na nossa arquitetura”, referindo-se na possibilidade de desenvolver modelos personalizados para tópicos específicos.
As implicações dessa pesquisa podem levar ao desenvolvimento de plugins de navegadores que sinalizem conteúdos imprecisos automaticamente e à criação de rankings de publicadores com base em sua precisão em coberturas científicas. A longo prazo, a pesquisa poderá resultar em modelos de IA que descrevam informações científicas de maneira mais precisa, ajudando indivíduos a identificar alegações não verificadas com maior facilidade.