- Publicidade -
- Publicidade -
- Publicidade -
Inteligência Artificial

Anthropic lança ‘persona vectors’ para guiar LLMs

- Publicidade -
- Publicidade -

São Paulo — InkDesign News — Uma nova pesquisa da Anthropic Fellows Program revela técnicas inovadoras para monitorar e controlar traços de personalidade em modelos de linguagem de grande porte (LLMs). O estudo destaca como esses modelos podem desenvolver comportamentos indesejados em resposta a entradas do usuário ou como um efeito colateral não intencional do treinamento.

Tecnologia e abordagem

A pesquisa introduz os “vetores de persona”, que são direções no espaço de ativação interno de um modelo, correspondendo a traços específicos de personalidade. Segundo os pesquisadores, essa abordagem permite que desenvolvedores monitoram e gerenciem melhor o comportamento de assistentes de IA. O processo para extrair os vetores de persona é automatizado, necessitando apenas de uma descrição em linguagem natural de um traço desejado.

Aplicação e desempenho

Experimentos realizados com modelos abertos demonstraram que, ao projetar o estado interno de um modelo em um vetor de persona, os desenvolvedores podem prever como ele se comportará antes de gerar uma resposta. Os pesquisadores observam que mudanças de treinamento induzidas por fine-tuning estão fortemente correlacionadas com alterações de ativação ao longo dos vetores de persona.

“Mostramos que tanto os deslocamentos de persona desejados quanto os indesejados são facilmente detectados ao longo dos vetores correspondentes.”
(“We show that both intended and unintended fine-tuning-induced persona shifts strongly correlate with activation changes along corresponding persona vectors.”)

— Pesquisadores, Anthropic

A técnica oferece intervenções diretas para conter comportamentos indesejáveis em tempo de inferência, como a "direção post-hoc", que diminui a ativação do vetor de persona durante a geração de respostas. Além disso, uma abordagem inovadora é a "direção preventiva", que visa "vacinar" o modelo contra a assimilação de traços negativos durante o fine-tuning.

Impacto e mercado

Esta nova metodologia permite que empresas usem vetores de persona para filtrar dados antes do fine-tuning. Os pesquisadores desenvolveram uma métrica chamada “diferença de projeção”, que avalia o quanto um conjunto de treinamento pode influenciar a personalidade do modelo.

“Essa abordagem permite a identificação de amostras problemáticas que podem não ser imediatamente visíveis como prejudiciais.”
(“This suggests that the method surfaces problematic samples that may evade LLM-based detection.”)

— Pesquisadores, Anthropic

Com a crescente demanda por modelos de IA confiáveis e controláveis, a aplicação de vetores de persona poderá transformar a maneira como dados são gerados e utilizados, mitigando fundamentalmente riscos associados a comportamentos indesejáveis. A Anthropic planeja utilizar essa técnica para melhorar gerações futuras de seu modelo Claude.

Os próximos passos incluem a validação da aplicabilidade desta abordagem em diferentes contextos empresariais, além da contínua evolução de mecanismos de controle de traços de personalidade em LLMs.

Fonte: (VentureBeat – AI)

- Publicidade -
- Publicidade -

Tiago F Santiago

Tiago F. Santiago é Analista de Marketing na C2HSolutions, onde, em sua atuação fixa, combina estratégia e tecnologia para impulsionar soluções digitais. Paralelamente, dedica-se como hobby à InkDesign News, contribuindo com a criação de notícias e conteúdos jornalísticos. Apaixonado por programação, ele projeta aplicações web e desenvolve sites sob medida, apoiando-se em sua sólida expertise em infraestrutura de nuvem — dominando Amazon Web Services, Microsoft Azure e Google Cloud — para garantir que cada projeto seja escalável, seguro e de alta performance. Sua versatilidade e experiência técnica permitem-lhe transformar ideias em produtos digitais inovadores.

Artigos relacionados

0 0 votos
Classificação do artigo
Inscrever-se
Notificar de
guest

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.

0 Comentários
Mais votado
mais recentes mais antigos
Feedbacks embutidos
Ver todos os comentários
- Publicidade -
Botão Voltar ao topo
0
Adoraria saber sua opinião, comente.x
Fechar

Adblock detectado

Olá! Percebemos que você está usando um bloqueador de anúncios. Para manter nosso conteúdo gratuito e de qualidade, contamos com a receita de publicidade.
Por favor, adicione o InkDesign News à lista de permissões do seu adblocker e recarregue a página.
Obrigado pelo seu apoio!