
Inteligência Artificial Amplifica Divisão Digital de Linguagens, Afirma Pesquisa
São Paulo — InkDesign News — Uma nova pesquisa da Johns Hopkins University revela que ferramentas de inteligência artificial (AI) como ChatGPT estão exacerbando a divisão digital de linguagens, privilegiando o inglês e outras línguas amplamente faladas, enquanto marginalizam idiomas de menor uso.
Contexto da pesquisa
A pesquisa investiga se modelos de linguagem multimodal, como os usados em machine learning, realmente quebram barreiras linguísticas e democratizam o acesso à informação. Nikhil Sharma, aluno de doutorado e primeiro autor do estudo, destaca: “Estamos tentando perguntar se os LLMs multilingues são verdadeiramente multilingues” (“We were trying to ask, are multilingual LLMs truly multilingual?”) — Nikhil Sharma, Ph.D., Johns Hopkins University.
Método proposto
O estudo analisou a cobertura das guerras Israel-Gaza e Rússia-Ucrânia, identificando tipos de informações em artigos de notícias, como conhecimento comum e afirmações contraditórias. A equipe criou conjuntos de artigos fictícios, com informações “verdadeiras” e “alternativas”, em línguas de alto e baixo recurso, como inglês, chinês, alemão, hindi e árabe, para testar a precisão e o viés na recuperação de informações.
Resultados e impacto
Os resultados mostraram que os LLMs preferem informações na língua da consulta feita. Por exemplo, se um artigo em inglês diz que uma figura política indiana é negativa, enquanto um artigo em hindi a considera positiva, o modelo tenderá a reafirmar a informação com base na linguagem da pergunta. Sharma observa: “Se estou perguntando em inglês, o modelo me dirá que a figura é negativa, mas em hindi, dirá que é positiva” (“This means if I have an article in English that says some Indian political figure is bad, but I have an article in Hindi that says they are good, then the model will tell me they’re bad if I’m asking in English, but that they’re good if I’m asking in Hindi.”) — Nikhil Sharma, Ph.D., Johns Hopkins University.
O estudo conclui que, em situações onde não há artigos na língua do usuário, os LLMs acessam apenas informações em línguas de alto recurso, resultando em uma compreensão distorcida de eventos e contextos. Essa situação cria “cocooning informativo” e coloca em evidência a questão do imperialismo linguístico, onde as línguas dominantes dominam as narrativas.
Com o objetivo de mitigar essa disparidade de informação, a equipe planeja desenvolver benchmarks dinâmicos e conjuntos de dados que orientarão o futuro desenvolvimentos de modelos. “Concentrar o poder sobre as tecnologias de AI apresenta riscos substanciais”, alerta Sharma, “facilitando a manipulação do fluxo de informações” (“Concentrated power over AI technologies poses substantial risks, as it enables a few individuals or companies to manipulate the flow of information.”) — Nikhil Sharma, Ph.D., Johns Hopkins University.
A importância de diversificar as perspectivas na AI é conforme discutido pelos pesquisadores, que sugerem também aumentar a alfabetização informacional em busca conversacional para reduzir a confiança excessiva e a dependência em LLMs.
Fonte: (TechXplore – Machine Learning & AI)