- Publicidade -
- Publicidade -
- Publicidade -
Machine learning & AI

Novos modelos de LLM igualam desempenho em português e inglês

- Publicidade -
- Publicidade -

O avanço em machine learning e inteligência artificial (AI) tem sido marcado por desafios em diferentes idiomas, especialmente no que diz respeito à língua portuguesa. Recentemente, pesquisadores da Universidade de Bonn apresentaram o projeto “GigaVerbo”, que busca minimizar essa disparidade em capacidades de processamento de linguagem natural.

Contexto da pesquisa

Embora a língua portuguesa seja amplamente falada, modelos de linguagem, como os LLMs, têm desempenho inferior em comparação ao inglês. Neste cenário, o projeto “Tucano: Avançando a Geração Neural de Texto para o Português” visa preencher a lacuna de recursos nessa área.

Método proposto

Os pesquisadores desenvolveram um novo conjunto de dados, denominado GigaVerbo, que contém 200 bilhões de tokens deduplicados. Esse conjunto foi fundamental para o treinamento de vários modelos de decodificação utilizando o supercomputador Marvin da Universidade de Bonn. Os dados foram coletados de várias fontes para garantir diversidade linguística e alta qualidade.

“Através do GigaVerbo, esperamos promover o acesso equitativo ao processamento de linguagem natural em línguas menos favorecidas”
(“Through GigaVerbo, we hope to promote equitable access to natural language processing in underrepresented languages.”)

— Nicholas Kluge Corrêa, Pesquisador, Universidade de Bonn

Resultados e impacto

A pesquisa aborda duas lacunas principais: a escassez de recursos abertos para o português e a deficiência no desenvolvimento de LLMs open-source. Os pesquisadores utilizaram rigorosos ciclos de avaliação e otimização para garantir a eficácia dos modelos. A abordagem busca não apenas melhorar o desempenho em português, mas também estender pesquisa a línguas com poucos recursos, como o bengali e o hindi.

Com a liberação do corpus e os desenvolvimentos previstos, espera-se um impacto significativo no avanço da AI em português, oferecendo novos recursos e ferramentas para pesquisadores e desenvolvedores.

As possíveis aplicações para essa pesquisa incluem o aprimoramento de assistentes virtuais, ferramentas de tradução automática e sistemas de recomendação, todos otimizados para o português.

Fonte: (TechXplore – Machine Learning & AI)

- Publicidade -
- Publicidade -

Tiago F Santiago

Tiago F. Santiago é Analista de Marketing na C2HSolutions, onde, em sua atuação fixa, combina estratégia e tecnologia para impulsionar soluções digitais. Paralelamente, dedica-se como hobby à InkDesign News, contribuindo com a criação de notícias e conteúdos jornalísticos. Apaixonado por programação, ele projeta aplicações web e desenvolve sites sob medida, apoiando-se em sua sólida expertise em infraestrutura de nuvem — dominando Amazon Web Services, Microsoft Azure e Google Cloud — para garantir que cada projeto seja escalável, seguro e de alta performance. Sua versatilidade e experiência técnica permitem-lhe transformar ideias em produtos digitais inovadores.

Artigos relacionados

0 0 votos
Classificação do artigo
Inscrever-se
Notificar de
guest

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.

0 Comentários
Mais votado
mais recentes mais antigos
Feedbacks embutidos
Ver todos os comentários
- Publicidade -
Botão Voltar ao topo
0
Adoraria saber sua opinião, comente.x
Fechar

Adblock detectado

Olá! Percebemos que você está usando um bloqueador de anúncios. Para manter nosso conteúdo gratuito e de qualidade, contamos com a receita de publicidade.
Por favor, adicione o InkDesign News à lista de permissões do seu adblocker e recarregue a página.
Obrigado pelo seu apoio!