Modelo de AI melhora detecção com baixa taxa de falsos positivos

Contexto da pesquisa
A detecção de textos gerados por inteligência artificial (IA) representa um desafio significativo no campo do machine learning. Uma nova pesquisa da Universidade de Michigan busca endereçar este problema, criando um método eficaz para diferenciar entre produções humanas e de modelos de linguagem.
Método proposto
O projeto, denominado “Liketropy”, combina dois conceitos estatísticos: verossimilhança e entropia. Esta abordagem utiliza testes estatísticos “zero-shot”, que podem identificar se um texto foi escrito por um humano ou por um modelo de linguagem de grande escala (LLM) sem a necessidade de exemplos prévios. O foco é em propriedades estatísticas do texto, como a previsibilidade e a surpresa das palavras.
Resultados e impacto
Os testes realizados em grandes conjuntos de dados, incluindo aqueles com modelos de IA que não eram acessíveis ao público, indicaram que o modelo teve um desempenho superior, com uma precisão média acima de 96% e uma taxa de falsa acusação de apenas 1%.
Nós fomos muito intencionais em não criar um detector que simplesmente aponta culpados. Detectores de IA podem ser excessivamente confiantes, e isso é arriscado — especialmente na educação e na política.
(“We were very intentional about not creating a detector that just points fingers. AI detectors can be overconfident, and that’s risky—especially in education and policy.”)— Tara Radvand, Estudante de Doutorado, Universidade de Michigan
A pesquisa também revelou que o conhecimento sobre um modelo de linguagem específico não era crucial para a detecção eficaz, desafiando a crença de que o acesso e o treinamento são necessários para um bom desempenho.
As futuras aplicações da ferramenta incluem um uso potencial na verificação de conteúdos nas redes sociais e na admissão em universidades, buscando equilibrar a eficácia na detecção de IA com a justiça, especialmente para estudantes não nativos da língua inglesa. O grupo planeja expandir a demonstração da ferramenta para diferentes domínios.
Fonte: (TechXplore – Machine Learning & AI)