LLM de código aberto promove suporte multilíngue e transparência

Nova Pesquisa em IA Foca em Modelos de Linguagem Multilíngues e Abertura Pública
Machine learning tem avançado rapidamente, e uma nova iniciativa de pesquisa na Europa destaca-se por oferecer um modelo de linguagem totalmente aberto, treinado em uma das mais avançadas supercomputadoras do mundo.
Contexto da pesquisa
São Paulo — InkDesign News — Neste verão, a EPFL e a ETH Zurich deverão lançar um modelo de linguagem de código aberto (LLM) desenvolvido em infraestrutura pública. Treinado no supercomputador Alps, no Centro Suíço de Supercomputação (CSCS), esse LLM representa um marco na IA de fonte aberta e excelência multilíngue.
A reunião recente em Genebra, que contou com cerca de 50 iniciativas e organizações líderes dedicadas a LLMs de código aberto, sinalizou o compromisso em construir um ecossistema internacional colaborativo para modelos de fundação abertos.
Método proposto
O modelo, que será lançado em duas versões com 8 bilhões e 70 bilhões de parâmetros, é treinado em um vasto conjunto de dados textuais em mais de 1.500 idiomas, com aproximadamente 60% em inglês e 40% em idiomas não ingleses. Isso garante uma representatividade global e máxima aplicabilidade.
“Colocamos ênfase em fazer com que os modelos sejam massivamente multilíngues desde o início.”
(“We have emphasized making the models massively multilingual from the start.”)— Antoine Bosselut, Professor, ETH Zurich
O modelo foi desenvolvido em conformidade com as leis suíças de proteção de dados e os regulamentos da Lei de IA da UE.
Resultados e impacto
Com treinamento em mais de 15 trilhões de tokens de alta qualidade, o modelo alcança uma confiabilidade elevada, permitindo uma robusta compreensão da linguagem e versatilidade em várias aplicações. A meta é disseminar o código-fonte e os pesos publicamente, assim como garantir que os dados de treinamento sejam transparentes e reprodutíveis.
“Modelos totalmente abertos possibilitam aplicações de alta confiança e são necessários para avançar na pesquisa sobre os riscos e oportunidades da IA.”
(“Fully open models enable high-trust applications and are necessary for advancing research about the risks and opportunities of AI.”)— Imanol Schlag, Cientista de Pesquisa, ETH AI Center
Ao longo do verão, o modelo será liberado sob a Licença Apache 2.0, acompanhada de documentação detalhada sobre arquitetura e métodos de treinamento para facilitar a reutilização e o desenvolvimento adicional.
As potenciais aplicações incluem setores de ciência, governo e educação, promovendo a inovação e a responsabilidade. O avanço na acessibilidade e transparência em IA é esperado para impactar significativamente a comunidade de pesquisa e o mercado.
Fonte: (TechXplore – Machine Learning & AI)