Anthropic apresenta agentes de auditoria para AI

- Publicidade -

Tiago F Santiago 24/07/2025Última Atualização 24/07/2025

0 1 2 minutos de leitura

Anthropic apresenta agentes de auditoria para AI — Anthropic unveils 'auditing agents' to test for AI misalignment

- Publicidade -

São Paulo — InkDesign News — Pesquisadores da Anthropic introduziram agentes de auditoria de alinhamento que prometem otimizar a validação de modelos de inteligência artificial (IA) em organizações, abordando desafios de escalabilidade e eficiência na detecção de comportamentos indesejados.

Tecnologia e abordagem

O novo sistema desenvolvido pela Anthropic envolve agentes de auditoria que operam de forma autônoma em ambientes simulados projetados para conduzir testes de alinhamento. De acordo com o estudo, os pesquisadores criaram três tipos de agentes: um agente investigador, um agente de avaliação comportamental e um agente de red-teaming. Cada um é aplicado em diferentes contextos para identificar e avaliar falhas de alinhamento em modelos como o Claude Opus 4.

Aplicação e desempenho

Os testes mostraram que o agente investigador conseguiu identificar a causa raiz de desvio de comportamento em modelos misaligned 10-13% das vezes, enquanto essa taxa aumentou para 42% com a abordagem de super-agente. O agente de avaliação foi capaz de flagrar características problemáticas em modelos que eram instáveis, embora tivesse dificuldades com comportamentos mais sutis, como a auto-promoção. O agente de red-teaming conseguiu detectar sete de dez comportamentos indesejados relevantes, mas também enfrentou limitações semelhantes.

“Nossos agentes demonstram promessa em várias tarefas de auditoria de alinhamento. Com trabalho adicional, a auditoria automatizada poderia ajudar a escalar a supervisão humana sobre sistemas de IA.”
(“Overall, our agents demonstrate promise across multiple alignment auditing tasks. Additionally, our approach to validating agents with auditing games yields insights into agent capabilities, limitations, and key affordances. With further work, automated auditing could significantly help scale human oversight over AI systems.”)

— Pesquisadores, Anthropic

Impacto e mercado

Com o aumento da potência dos sistemas de IA, a necessidade de métodos escaláveis para avaliar seu alinhamento se torna cada vez mais crítica. A abordagem atual de auditoria humana é demorada e difícil de validar, o que gera preocupações sobre a eficácia desses modelos no mercado. A Anthropic argumenta que a automação na auditoria de alinhamento pode resolver esses problemas, oferecendo uma solução que melhora a eficiência e a precisão.

À medida que esses sistemas evoluem, a integração de auditorias automatizadas nas práticas de desenvolvimento e implementação de IA se mostrará essencial. O avanço desses agentes de auditoria representa um passo significativo para melhorar a confiabilidade das decisões tomadas por modelos de IA em várias indústrias.

Fonte: (VentureBeat – AI)

- Publicidade -

Etiquetas

Tiago F Santiago 24/07/2025Última Atualização 24/07/2025

0 1 2 minutos de leitura

Ler o Próximo

0 0 votos

Classificação do artigo

Inscrever-se

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.

0 Comentários

Mais votado

mais recentes mais antigos

Feedbacks embutidos

Ver todos os comentários

Moises
Gostei do seu poste, existe muitos artigos em seu blog relac...
Ana Karol
Adorei conhecer seu blog, tem muito artigos bem interessante...
Marlene Coelho
Algo errado não está certo com essa foto. Arquibancada ao la...
Dennison de Oliveira
Lacrô!:) Mas pelo menos alguém pesquisou por que o título fo...

Anthropic apresenta agentes de auditoria para AI

Tecnologia e abordagem

Aplicação e desempenho

Impacto e mercado

Tiago F Santiago

Ler o Próximo

Terapia com ChatGPT: como a inteligência artificial influencia clientes

Desafios da inteligência artificial na eficiência energética

Peak Ji impulsiona aplicações globais de inteligência artificial

Inteligência artificial transforma o futuro dos bancos

Synthesia aprimora IA que pode interagir de forma expressiva

Inteligência artificial transforma o futuro das empresas

MIT desenvolve algoritmos para engajar o cliente conectado

Inteligência artificial melhora eficiência em provedores de saúde

Therapeutas usam GPT em consultas, clientes se sentem impactados

AI doppelgänger auxilia na otimização de tarefas profissionais

Terapia com ChatGPT: como a inteligência artificial influencia clientes

Desafios da inteligência artificial na eficiência energética

Peak Ji impulsiona aplicações globais de inteligência artificial

Inteligência artificial transforma o futuro dos bancos

Synthesia aprimora IA que pode interagir de forma expressiva

Inteligência artificial transforma o futuro das empresas

MIT desenvolve algoritmos para engajar o cliente conectado

Inteligência artificial melhora eficiência em provedores de saúde

Therapeutas usam GPT em consultas, clientes se sentem impactados

AI doppelgänger auxilia na otimização de tarefas profissionais

Meta lança Llama API 18x mais rápida com AI avançada

LLM do ChatGPT amplia auxílio em compras intensificando rivalidade com Google

Ataques a ONGs aumentam com ransomware globalmente

SpaceX enfrenta desafios com foguete Starship no teste 163

Como construir um app de MCQ com machine learning

Robô da RoboCup@Work League transforma processos industriais

NASA oferece desconto em câmera Canon e lente grande angular

PT lança curso sobre fé e democracia para ampliar apoio evangélico

Uerj revoga título a Médici em ação contra governo militar

Google encerra suporte a termostatos Nest antigos em 25 de outubro

Investidores pessoas físicas aumentam investimento em secondaries e IPOs atrasados viram norma no venture capital

Tecnologia e abordagem

Aplicação e desempenho

Impacto e mercado

Ler o Próximo

Terapia com ChatGPT: como a inteligência artificial influencia clientes

Desafios da inteligência artificial na eficiência energética

Peak Ji impulsiona aplicações globais de inteligência artificial

Inteligência artificial transforma o futuro dos bancos

Synthesia aprimora IA que pode interagir de forma expressiva

Inteligência artificial transforma o futuro das empresas

MIT desenvolve algoritmos para engajar o cliente conectado

Inteligência artificial melhora eficiência em provedores de saúde

Therapeutas usam GPT em consultas, clientes se sentem impactados

AI doppelgänger auxilia na otimização de tarefas profissionais

YouTube apresenta ferramentas de AI para fotos dinâmicas

Victor Lazarte lança fundo de investimento em venture capital

Artigos relacionados

Robô da RoboCup@Work League transforma processos industriais

NASA oferece desconto em câmera Canon e lente grande angular

PT lança curso sobre fé e democracia para ampliar apoio evangélico

Uerj revoga título a Médici em ação contra governo militar

Google encerra suporte a termostatos Nest antigos em 25 de outubro

Investidores pessoas físicas aumentam investimento em secondaries e IPOs atrasados viram norma no venture capital

Adblock detectado