Pesquisador transforma GPT-OSS-20B em modelo de IA sem raciocínio

São Paulo — InkDesign News — A recente liberação do modelo de inteligência artificial GPT-OSS pela OpenAI trouxe à tona novos avanços na área de modelos de linguagem de grande escala (LLM). Este lançamento marca a primeira vez que a empresa disponibiliza um modelo com pesos abertos desde o GPT-2, em 2019, permitindo que desenvolvedores fora da organização explorem e reconfigurem o modelo para diversas aplicações.
Tecnologia e abordagem
O modelo GPT-OSS é construído em uma arquitetura de transformadores com mistura de especialistas, permitindo que ele incorpore múltiplas funcionalidades em uma única estrutura, aumentando sua eficiência e capacidade de processamento. Jack Morris, um pesquisador da Cornell Tech, apresentou uma variante chamada gpt-oss-20b-base, que reverteu o modelo para uma versão pré-treinada. Segundo Morris, “nós basicamente reverteram a parte de alinhamento do treinamento de LLM, então temos algo que produz texto com aparência natural novamente” (
“We basically reversed the alignment part of LLM training, so we have something that produces natural-looking text again.”
— Jack Morris, Pesquisador, Cornell Tech
).
Este modelo é caracterizado por menos restrições e uma produção textual mais ampla, sem as limitações impostas por modelos otimizados para raciocínio. A abordagem de Morris, que utilizou uma atualização de baixo escopo (LoRA), permitiu ajustar apenas uma pequena parte do modelo, mantendo sua estrutura essencial.
Aplicação e desempenho
O gpt-oss-20b-base oferece resultados competentes em várias tarefas textuais, mas notavelmente se destaca em liberdade de expressão e diversidade textual. Durante os testes, o modelo demonstrou capacidade de reproduzir trechos de obras protegidas por direitos autorais, o que evidencia a acessibilidade de informações memorizadas. Em conversas estruturadas, o modelo poderia ainda se comportar como um chatbot educado, mas a eliminação do raciocínio em cadeia leva a respostas mais variadas em contextos livres.
Morris utilizou cerca de 20.000 documentos do dataset FineWeb para treinar o modelo por quatro dias em oito GPUs NVIDIA H200, buscando garantir que o formato fosse o mais próximo possível do pré-treinamento original.
Impacto e mercado
A liberação do gpt-oss e sua reconfiguração por Morris vem em um momento crítico, onde desenvolvedores e pesquisadores se movem em direção a soluções open source. O feedback inicial sobre o modelo original da OpenAI foi misto, com elogios à licença permissiva e críticas a limitações de dados sintéticos. No entanto, a resposta positiva ao gpt-oss-20b-base destaca um forte interesse pelo potencial de modelos base em pesquisa e aplicação, mesmo com o aumento de riscos à segurança.
Morris afirmou que continuará sua pesquisa em modelos que não empregam raciocínio, explorando a extração em modelos instruct como os da Qwen. Essa exploração poderá abrir caminho para uma nova geração de sistemas de IA com menos alinhamento e mais liberdade, cada vez mais integrados a aplicações práticas.
Fonte: (VentureBeat – AI)