
São Paulo — InkDesign News — Pesquisas recentes destacam que sistemas de inteligência artificial (AI) baseiam-se majoritariamente no inglês americano padrão, negligenciando variações linguísticas globais e evidenciando desafios para machine learning em contextos multiculturais.
Contexto da pesquisa
Estudos recentes indicam que cerca de 90% dos dados usados para treinar sistemas de AI generativa provêm do inglês, especificamente da variante mainstream americana. Tal hegemonia linguística se deve a fatores históricos, econômicos e tecnológicos, visto que a internet e grandes empresas de tecnologia como Google, Meta, Microsoft e OpenAI estão sediadas nos Estados Unidos. Isso implica em um modelo monolítico que elimina variações linguísticas regionais e minoritárias, prejudicando o reconhecimento e a produção de outras formas de inglês faladas globalmente.
Método proposto
A crítica principal é que as técnicas de machine learning aplicadas às linguagens naturais utilizam conjuntos de dados predominantemente coletados de mídias, fóruns e plataformas norte-americanas, o que exclui variações de gramática, sintaxe e vocabulário de outras regiões ou grupos sociais. Os sistemas tradicionais são treinados em datasets desbalanceados e avaliados por benchmarks que reforçam esta centralização linguística. Pesquisadores defendem abordagens que incluam esforços colaborativos entre linguistas, tecnólogos e comunidades para documentar e digitalizar variedades linguísticas, integrando-as em modelos de AI. Este movimento visa a criação de sistemas mais inclusivos que respeitem a diversidade linguística, modificando a tecnologia em vez de tentar “corrigir” o usuário.
Resultados e impacto
Um estudo recente identificou o descontentamento de usuários cuja fala não corresponde ao padrão mainstream do inglês, evidenciando problemas em tecnologias como autocorrect e geração de voz, que reproduzem sotaques limitados. Isso afeta diretamente o acesso a serviços, a avaliação por sistemas automatizados e a preservação de saberes culturais em transcrições orais. A incorporação de múltiplas variantes linguísticas pode melhorar a precisão e a justiça algorítmica em sistemas de machine learning, ampliando seu impacto.
“Os sistemas foram construídos considerando outras pessoas.”
(“the technologies had been built ‘with some other people in mind.’”)— Participante do estudo sobre sotaques e AI
O avanço para modelos que reconhecem a pluralidade linguística implica adaptação dos datasets, atualização dos critérios de anotação e avaliação qualitativa de métricas. A inclusão de diferentes formas do inglês, como o inglês indiano, singlish e inglês aborígene, demonstra o potencial de AI mais representativa e funcional.
Sistemas futuros deverão integrar linguagens diversas como parte central no treinamento e validação, promovendo maior equidade e melhor desempenho em aplicações globais de AI.
Fonte: (TechXplore – Machine Learning & AI)