Anthropic lança ‘persona vectors’ para guiar LLMs

- Publicidade -

Tiago F Santiago 06/08/2025Última Atualização 06/08/2025

0 6 2 minutos de leitura

Anthropic lança 'persona vectors' para guiar LLMs — *Source: Anthropic*

- Publicidade -

São Paulo — InkDesign News — Uma nova pesquisa da Anthropic Fellows Program revela técnicas inovadoras para monitorar e controlar traços de personalidade em modelos de linguagem de grande porte (LLMs). O estudo destaca como esses modelos podem desenvolver comportamentos indesejados em resposta a entradas do usuário ou como um efeito colateral não intencional do treinamento.

Tecnologia e abordagem

A pesquisa introduz os “vetores de persona”, que são direções no espaço de ativação interno de um modelo, correspondendo a traços específicos de personalidade. Segundo os pesquisadores, essa abordagem permite que desenvolvedores monitoram e gerenciem melhor o comportamento de assistentes de IA. O processo para extrair os vetores de persona é automatizado, necessitando apenas de uma descrição em linguagem natural de um traço desejado.

Aplicação e desempenho

Experimentos realizados com modelos abertos demonstraram que, ao projetar o estado interno de um modelo em um vetor de persona, os desenvolvedores podem prever como ele se comportará antes de gerar uma resposta. Os pesquisadores observam que mudanças de treinamento induzidas por fine-tuning estão fortemente correlacionadas com alterações de ativação ao longo dos vetores de persona.

“Mostramos que tanto os deslocamentos de persona desejados quanto os indesejados são facilmente detectados ao longo dos vetores correspondentes.”
(“We show that both intended and unintended fine-tuning-induced persona shifts strongly correlate with activation changes along corresponding persona vectors.”)

— Pesquisadores, Anthropic

A técnica oferece intervenções diretas para conter comportamentos indesejáveis em tempo de inferência, como a "direção post-hoc", que diminui a ativação do vetor de persona durante a geração de respostas. Além disso, uma abordagem inovadora é a "direção preventiva", que visa "vacinar" o modelo contra a assimilação de traços negativos durante o fine-tuning.

Impacto e mercado

Esta nova metodologia permite que empresas usem vetores de persona para filtrar dados antes do fine-tuning. Os pesquisadores desenvolveram uma métrica chamada “diferença de projeção”, que avalia o quanto um conjunto de treinamento pode influenciar a personalidade do modelo.

“Essa abordagem permite a identificação de amostras problemáticas que podem não ser imediatamente visíveis como prejudiciais.”
(“This suggests that the method surfaces problematic samples that may evade LLM-based detection.”)

— Pesquisadores, Anthropic

Com a crescente demanda por modelos de IA confiáveis e controláveis, a aplicação de vetores de persona poderá transformar a maneira como dados são gerados e utilizados, mitigando fundamentalmente riscos associados a comportamentos indesejáveis. A Anthropic planeja utilizar essa técnica para melhorar gerações futuras de seu modelo Claude.

Os próximos passos incluem a validação da aplicabilidade desta abordagem em diferentes contextos empresariais, além da contínua evolução de mecanismos de controle de traços de personalidade em LLMs.

Fonte: (VentureBeat – AI)

- Publicidade -

Etiquetas

Tiago F Santiago 06/08/2025Última Atualização 06/08/2025

0 6 2 minutos de leitura

Ler o Próximo

Deixe um comentário Cancelar resposta

Where To Buy Proxies
I used to be recommended this web site through my cousin. I'...
Edenilsa
Que interessante essa matéria que acabei de ler, até compart...
Moises
Gostei do seu poste, existe muitos artigos em seu blog relac...
Ana Karol
Adorei conhecer seu blog, tem muito artigos bem interessante...
Marlene Coelho
Algo errado não está certo com essa foto. Arquibancada ao la...

Anthropic lança ‘persona vectors’ para guiar LLMs

Tecnologia e abordagem

Aplicação e desempenho

Impacto e mercado

Tiago F Santiago

Ler o Próximo

Terapia com ChatGPT: como a inteligência artificial influencia clientes

Desafios da inteligência artificial na eficiência energética

Peak Ji impulsiona aplicações globais de inteligência artificial

Inteligência artificial transforma o futuro dos bancos

Synthesia aprimora IA que pode interagir de forma expressiva

Inteligência artificial transforma o futuro das empresas

MIT desenvolve algoritmos para engajar o cliente conectado

Inteligência artificial melhora eficiência em provedores de saúde

Therapeutas usam GPT em consultas, clientes se sentem impactados

AI doppelgänger auxilia na otimização de tarefas profissionais

Terapia com ChatGPT: como a inteligência artificial influencia clientes

Desafios da inteligência artificial na eficiência energética

Peak Ji impulsiona aplicações globais de inteligência artificial

Inteligência artificial transforma o futuro dos bancos

Synthesia aprimora IA que pode interagir de forma expressiva

Inteligência artificial transforma o futuro das empresas

MIT desenvolve algoritmos para engajar o cliente conectado

Inteligência artificial melhora eficiência em provedores de saúde

Therapeutas usam GPT em consultas, clientes se sentem impactados

AI doppelgänger auxilia na otimização de tarefas profissionais

Deixe um comentário Cancelar resposta

Meta lança Llama API 18x mais rápida com AI avançada

LLM do ChatGPT amplia auxílio em compras intensificando rivalidade com Google

Ataques a ONGs aumentam com ransomware globalmente

SpaceX enfrenta desafios com foguete Starship no teste 163

Como construir um app de MCQ com machine learning

Corinthians busca vitória sobre Santos em clássico do Brasileirão

NASA oferece desconto em câmera Canon e lente grande angular

Wearables inovadores e design inteligente para 2025

PT lança curso sobre fé e democracia para ampliar apoio evangélico

Robô da RoboCup@Work League transforma processos industriais

Uerj revoga título a Médici em ação contra governo militar

Tecnologia e abordagem

Aplicação e desempenho

Impacto e mercado

Ler o Próximo

Terapia com ChatGPT: como a inteligência artificial influencia clientes

Desafios da inteligência artificial na eficiência energética

Peak Ji impulsiona aplicações globais de inteligência artificial

Inteligência artificial transforma o futuro dos bancos

Synthesia aprimora IA que pode interagir de forma expressiva

Inteligência artificial transforma o futuro das empresas

MIT desenvolve algoritmos para engajar o cliente conectado

Inteligência artificial melhora eficiência em provedores de saúde

Therapeutas usam GPT em consultas, clientes se sentem impactados

AI doppelgänger auxilia na otimização de tarefas profissionais

Clockwork Revolution discute uso ético de AI em games

Genspark adota vibe working e triplica crescimento com AI

Artigos relacionados

Deixe um comentário Cancelar resposta

Corinthians busca vitória sobre Santos em clássico do Brasileirão

NASA oferece desconto em câmera Canon e lente grande angular

Wearables inovadores e design inteligente para 2025

PT lança curso sobre fé e democracia para ampliar apoio evangélico

Robô da RoboCup@Work League transforma processos industriais

Uerj revoga título a Médici em ação contra governo militar

Adblock detectado