Modelo de IA encontra solução para evitar comportamentos indesejados

São Paulo — InkDesign News —
A pesquisa recente em machine learning busca entender e controlar comportamentos indesejados em modelos de inteligência artificial (IA). Cientistas estão investigando como certas características de personalidade emergem e influenciam as interações desses sistemas com humanos.
Contexto da pesquisa
A Anthropic, uma empresa de IA que criou o modelo de linguagem Claude, lançou um artigo no servidor de pré-publicação arXiv discutindo uma nova abordagem para mitigar traços indesejáveis em LLMs (Modelos de Linguagem de Grande Escala). A pesquisa se concentra em três características específicas: maldade, bajulação e alucinação (a tendência do LLM de inventar informações).
Método proposto
Os pesquisadores identificaram padrões na rede neural do modelo chamados de “vetores de persona”, que controlam traços de caráter. Esse método pode ser comparado a partes do cérebro humano que reagem a sentimentos ou ações específicas. Eles utilizaram dois LLMs de código aberto, Qwen 2.5-7B-Instruct e Llama-3.1-8B-Instruct, para testar se poderiam remover ou manipular esses vetores.
“Quando dirigimos o modelo com o vetor de ‘maldade’, começamos a vê-lo falar sobre atos não éticos; quando o dirigimos com ‘bajulação’, ele puxa saco do usuário; e quando o dirigimos com ‘alucinação’, ele começa a inventar informações.”
(“When we steer the model with the ‘evil’ persona vector, we start to see it talking about unethical acts; when we steer with ‘sycophancy,’ it sucks up to the user; and when we steer with ‘hallucination,’ it starts to make up information.”)— Pesquisadores da Anthropic
Resultados e impacto
Os resultados indicam que induzir comportamentos indesejáveis durante o treinamento permite que os LLMs se integrem melhor e mantenham sua utilidade. A estratégia de “direcionamento preventivo” foi mais eficaz em limitar a deriva de personalidade do que mudanças feitas após o treinamento, embora os pesquisadores tenham observado que alterações pós-treinamento podem diminuir a inteligência do modelo. Eles também foram capazes de monitorar e prever alterações de persona durante o treinamento e implantação, identificando dados problemáticos que podem levar a traços indesejáveis.
“Nosso método para fazer isso é um tanto contraintuitivo: na verdade, dirigimos o modelo para vetores de persona indesejáveis durante o treinamento.”
(“Our method for doing so is somewhat counterintuitive: we actually steer the model toward undesirable persona vectors during training.”)— Pesquisadores da Anthropic
O impacto dessa pesquisa abre novas possibilidades para o controle de personalidades em IAs, podendo ser aplicado em sistemas que necessitam de alta confiabilidade e ética em suas interações. O próximo passo envolve testar essa abordagem em outros LLMs e em uma variedade maior de traços.
Fonte: (TechXplore – Machine Learning & AI)