OpenAI libera fine-tune do modelo o4-mini com reinforcement learning para empresas

São Paulo — InkDesign News — A OpenAI liberou para desenvolvedores externos o acesso ao ajuste fino por reforço (RFT) em seu novo modelo de raciocínio de linguagem o4-mini, possibilitando a criação de versões personalizadas para aplicações empresariais específicas. Essa técnica de aprendizado de máquina aprimora o modelo original com feedback iterativo, adaptando-o a terminologias, processos e metas internas de organizações.
Tecnologia e abordagem
O RFT utiliza uma função de avaliação que pontua diferentes respostas do modelo para cada entrada, ajustando os pesos do modelo para favorecer respostas de maior qualidade segundo critérios personalizados. Isso difere do ajuste supervisionado tradicional, focado em respostas fixas, e permite a modelagem de objetivos mais complexos como estilo de comunicação e conformidade interna. Atualmente, o RFT é suportado para modelos da série o e está disponível para o o4-mini. O processo envolve definir uma função avaliadora, carregar conjuntos de dados, configurar o treinamento e revisar os resultados iterativamente via API ou painel da OpenAI.
Aplicação e desempenho
Clientes como Accordance AI, Ambience Healthcare e Thomson Reuters relataram ganhos expressivos, como melhora de até 39% em tarefas fiscais complexas, avanço em códigos médicos ICD-10 acima do desempenho médico, e precisão comparável ao GPT-4o em análise legal. Essas soluções demandam definição clara de tarefas, formatos estruturados de saída e critérios confiáveis para avaliação, essenciais para o sucesso do RFT. Um cuidado necessário é que modelos ajustados podem apresentar maior susceptibilidade a falhas ou manipulações (jailbreaks).
“Modelos ajustados finamente podem ser mais propensos a jailbreaks e alucinações, portanto, recomenda-se cautela.”
(“fine-tuned models may be more prone to jailbreaks and hallucinations, so proceed cautiously.”)— OpenAI, comunicado oficial
Impacto e mercado
O RFT expande o controle na personalização de LLMs, permitindo que empresas alinhem seus sistemas de IA com demandas operacionais e regulatórias específicas, reduzindo a necessidade de infraestrutura própria para aprendizado por reforço. O custo é calculado por hora de treinamento ativo, com descontos para organizações que compartilham dados com a OpenAI. A tecnologia tende a influenciar setores como jurídico, fiscal, saúde e atendimento ao cliente, onde precisão e aderência a normas são críticas.
Para empresas com objetivos bem definidos e dados estruturados, o RFT oferece uma ferramenta robusta para melhorar a performance de modelos de deep learning em tarefas específicas, elevando a eficiência operacional e a adaptação a requisitos regulatórios.
Fonte: (VentureBeat – AI)