- Publicidade -
- Publicidade -
- Publicidade -
Inteligência Artificial

Tencent apresenta R-Zero: LLMs se auto-treinam sem rotulação

- Publicidade -
- Publicidade -

São Paulo — InkDesign News —

Pesquisadores do Tencent AI Lab e da Washington University in St. Louis desenvolveram um novo framework chamado R-Zero que permite que grandes modelos de linguagem (LLMs) aprimorem suas capacidades sem precisar de dados rotulados por humanos. Utilizando técnicas de aprendizagem por reforço, o R-Zero gera seus próprios dados de treinamento, superando uma das principais barreiras no desenvolvimento de sistemas de IA autônomos.

Tecnologia e abordagem

O R-Zero se baseia em um modelo co-evolutivo, onde dois modelos independentes interagem e se desafiam. Um modelo atua como “Desafiante”, criando tarefas que estão no limiar das capacidades do outro, chamado “Resolvedor”. Este último é premiado por resolver problemas que se tornam progressivamente mais complexos. Este ciclo de interação continua, permitindo que ambos os modelos se aprimorem sem intervenção humana.

“O que encontramos em um cenário prático é que o maior desafio não é gerar as respostas… mas sim gerar questões de qualidade alta, novas e progressivamente mais difíceis.”
(“What we found in a practical setting is that the biggest challenge is not generating the answers… but rather generating high-quality, novel, and progressively more difficult questions.”)

— Chengsong Huang, Estudante de doutorado, Washington University in St. Louis

Aplicação e desempenho

O R-Zero foi testado em diversos LLMs open-source, mostrando resultados significativos. Modelos como Qwen3-4B-Base obtiveram um aumento médio de 6,49 pontos em benchmarks de raciocínio matemático depois de várias iterações de treinamento. A metodologia é útil para melhorar a capacidade de raciocínio geral, com transferências de habilidades observadas em tarefas complexas.

Enquanto o desempenho inicial após a primeira iteração foi promissor, a qualidade dos dados gerados pelo Desafiante apresenta uma desvantagem. Os pesquisadores observaram que a precisão dos rótulos autorreferidos diminuiu de 79% para 63% ao longo das iterações, o que representa um potencial limite para a eficácia do sistema a longo prazo.

Impacto e mercado

O R-Zero oferece uma alternativa ao processo tradicional de curadoria de dados no desenvolvimento de IA, uma abordagem que pode ser revolucionária em domínios onde dados de alta qualidade são escassos. Huang ressalta que a metodologia evita a necessidade de encontrar e rotular conjuntos de dados, criando assim uma IA menos limitada pelo conhecimento humano.

“Nosso enfoque contorna completamente o gargalo fundamental de ter que encontrar, rotular e curar conjuntos de dados de alta qualidade.”
(“Our approach entirely bypasses the fundamental bottleneck of having to find, label, and curate high-quality datasets.”)

— Chengsong Huang, Estudante de doutorado, Washington University in St. Louis

O próximo passo, segundo os pesquisadores, é resolver a diminuição da qualidade dos rótulos autogerados e explorar se a introdução de um “Verificador” poderia aprimorar o sistema. Além disso, estender essa abordagem para tarefas subjetivas, como geração de conteúdo de marketing ou resumos de relatórios, representa um desafio significativo.

Fonte: (VentureBeat – AI)

- Publicidade -
- Publicidade -

Tiago F Santiago

Tiago F. Santiago é Analista de Marketing na C2HSolutions, onde, em sua atuação fixa, combina estratégia e tecnologia para impulsionar soluções digitais. Paralelamente, dedica-se como hobby à InkDesign News, contribuindo com a criação de notícias e conteúdos jornalísticos. Apaixonado por programação, ele projeta aplicações web e desenvolve sites sob medida, apoiando-se em sua sólida expertise em infraestrutura de nuvem — dominando Amazon Web Services, Microsoft Azure e Google Cloud — para garantir que cada projeto seja escalável, seguro e de alta performance. Sua versatilidade e experiência técnica permitem-lhe transformar ideias em produtos digitais inovadores.

Artigos relacionados

0 0 votos
Classificação do artigo
Inscrever-se
Notificar de
guest

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.

0 Comentários
Mais votado
mais recentes mais antigos
Feedbacks embutidos
Ver todos os comentários
- Publicidade -
Botão Voltar ao topo
0
Adoraria saber sua opinião, comente.x
Fechar

Adblock detectado

Olá! Percebemos que você está usando um bloqueador de anúncios. Para manter nosso conteúdo gratuito e de qualidade, contamos com a receita de publicidade.
Por favor, adicione o InkDesign News à lista de permissões do seu adblocker e recarregue a página.
Obrigado pelo seu apoio!