
O avanço em machine learning e inteligência artificial (AI) tem sido marcado por desafios em diferentes idiomas, especialmente no que diz respeito à língua portuguesa. Recentemente, pesquisadores da Universidade de Bonn apresentaram o projeto “GigaVerbo”, que busca minimizar essa disparidade em capacidades de processamento de linguagem natural.
Contexto da pesquisa
Embora a língua portuguesa seja amplamente falada, modelos de linguagem, como os LLMs, têm desempenho inferior em comparação ao inglês. Neste cenário, o projeto “Tucano: Avançando a Geração Neural de Texto para o Português” visa preencher a lacuna de recursos nessa área.
Método proposto
Os pesquisadores desenvolveram um novo conjunto de dados, denominado GigaVerbo, que contém 200 bilhões de tokens deduplicados. Esse conjunto foi fundamental para o treinamento de vários modelos de decodificação utilizando o supercomputador Marvin da Universidade de Bonn. Os dados foram coletados de várias fontes para garantir diversidade linguística e alta qualidade.
“Através do GigaVerbo, esperamos promover o acesso equitativo ao processamento de linguagem natural em línguas menos favorecidas”
(“Through GigaVerbo, we hope to promote equitable access to natural language processing in underrepresented languages.”)— Nicholas Kluge Corrêa, Pesquisador, Universidade de Bonn
Resultados e impacto
A pesquisa aborda duas lacunas principais: a escassez de recursos abertos para o português e a deficiência no desenvolvimento de LLMs open-source. Os pesquisadores utilizaram rigorosos ciclos de avaliação e otimização para garantir a eficácia dos modelos. A abordagem busca não apenas melhorar o desempenho em português, mas também estender pesquisa a línguas com poucos recursos, como o bengali e o hindi.
Com a liberação do corpus e os desenvolvimentos previstos, espera-se um impacto significativo no avanço da AI em português, oferecendo novos recursos e ferramentas para pesquisadores e desenvolvedores.
As possíveis aplicações para essa pesquisa incluem o aprimoramento de assistentes virtuais, ferramentas de tradução automática e sistemas de recomendação, todos otimizados para o português.
Fonte: (TechXplore – Machine Learning & AI)