- Publicidade -
- Publicidade -
- Publicidade -
Machine learning & AI

Modelos de machine learning divergem na identificação de hate speech

- Publicidade -
- Publicidade -

Com a proliferação do discurso de ódio online — que, segundo pesquisas, pode aumentar a polarização política e danificar a saúde mental — as principais empresas de inteligência artificial (IA) têm lançado modelos de linguagem de grande escala que prometem a filtragem automática de conteúdo.

Contexto da pesquisa

A pesquisa foi conduzida na Universidade da Pensilvânia e revela que as empresas de tecnologia privadas se tornaram os árbitros de fato do que pode ser considerado como discurso permissível na esfera pública digital. “Isso ocorre sem um padrão consistente”, afirma Yphtach Lelkes, professor associado na Escola Annenberg de Comunicação.

Método proposto

Lelkes e o aluno de doutorado Neil Fasching realizaram a primeira análise comparativa em larga escala dos sistemas de moderação de conteúdo de IA utilizados por plataformas de mídias sociais. Eles analisaram sete modelos, incluindo dois desenvolvidos pela OpenAI e dois pela Mistral, além do Claude 3.5 Sonnet, DeepSeek V3 e Google Perspective API. O estudo avaliou 1,3 milhão de frases sintéticas que fazem declarações sobre 125 grupos, abrangendo desde termos neutros até insultos.

Resultados e impacto

Os resultados mostraram que “os sistemas de moderação de conteúdo têm inconsistências dramáticas ao avaliar o mesmo conteúdo de discurso de ódio, com alguns sistemas sinalizando conteúdo como prejudicial enquanto outros o consideram aceitável” (“The research shows that content moderation systems have dramatic inconsistencies when evaluating identical hate speech content, with some systems flagging content as harmful while others deem it acceptable.”). Essas discrepâncias não só erodem a confiança do público, mas também criam percepções de parcialidade.

A análise revelou que a variação na consistência interna dos modelos é significativa: um deles demonstrou alta previsibilidade na classificação de conteúdos semelhantes, enquanto outros apresentaram resultados divergentes.
(“the researchers write that one demonstrated high predictability for how it would classify similar content, another produced different results for similar content”)

— Neil Fasching, Aluno de Doutorado, Universidade da Pensilvânia

Além disso, as discrepâncias foram especialmente significativas para certos grupos demográficos, o que deixa algumas comunidades mais vulneráveis ao dano online. O estudo descobriu que as avaliações de discurso de ódio eram mais semelhantes para grupos baseados em orientação sexual, raça e gênero, enquanto as inconsistências foram mais intensas para grupos baseados em nível educacional e classe econômica.

Por fim, os pesquisadores identificaram que certos modelos tratam termos pejorativos como prejudiciais independentemente do contexto, ao contrário de outros que priorizam o contexto e a intenção. As descobertas ressaltam a necessidade de um sistema mais consistente e acurado de moderação de conteúdo.

As possíveis aplicações incluem a melhoria dos sistemas de moderação de conteúdo nas plataformas digitais, visando minimizar os vieses e aumentar a segurança online.

Fonte: (TechXplore – Machine Learning & AI)

- Publicidade -
- Publicidade -

Tiago F Santiago

Tiago F. Santiago é Analista de Marketing na C2HSolutions, onde, em sua atuação fixa, combina estratégia e tecnologia para impulsionar soluções digitais. Paralelamente, dedica-se como hobby à InkDesign News, contribuindo com a criação de notícias e conteúdos jornalísticos. Apaixonado por programação, ele projeta aplicações web e desenvolve sites sob medida, apoiando-se em sua sólida expertise em infraestrutura de nuvem — dominando Amazon Web Services, Microsoft Azure e Google Cloud — para garantir que cada projeto seja escalável, seguro e de alta performance. Sua versatilidade e experiência técnica permitem-lhe transformar ideias em produtos digitais inovadores.

Artigos relacionados

0 0 votos
Classificação do artigo
Inscrever-se
Notificar de
guest

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.

0 Comentários
Mais votado
mais recentes mais antigos
Feedbacks embutidos
Ver todos os comentários
- Publicidade -
Botão Voltar ao topo
0
Adoraria saber sua opinião, comente.x
Fechar

Adblock detectado

Olá! Percebemos que você está usando um bloqueador de anúncios. Para manter nosso conteúdo gratuito e de qualidade, contamos com a receita de publicidade.
Por favor, adicione o InkDesign News à lista de permissões do seu adblocker e recarregue a página.
Obrigado pelo seu apoio!