
São Paulo — InkDesign News — Pesquisadores da Checkmarx Zero revelaram um novo vetor de ataque em agentes de codificação de inteligência artificial (IA) que explora permissões de usuários para executar comandos prejudiciais, possivelmente levando a ataques na cadeia de suprimentos de software.
Vetor de ataque
O ataque, batizado de “mentiras no loop” (LITL), persuade o agente de IA a considerar ações perigosas como seguras. Este vetor foi demonstrado por pesquisadores ao realizar uma injeção de código que permitiu a execução remota de comandos arbitrários no assistente de código da IA, Claude Code. O ataque se baseia em manipulações sutis através de comandos disfarçados, contornando a verificação humana de permissões.
Impacto e resposta
Durante os testes, a equipe conseguiu executar um comando benigno que abriu a calculadora de um sistema Windows, evidenciando como outros comandos poderiam ser potencialmente executados. Apesar disso, a Anthropic, desenvolvedora do Claude Code, argumentou que o agente apresenta um aviso de confirmação para tais comandos, não considerando isso uma vulnerabilidade crítica.
“Mesmo quando você está rolando para cima buscando o comando, é difícil notar; se você não estiver esperando, está muito bem escondido.”
(“Even when you’re scrolling up looking for calc, it is hard to notice; if you’re not expecting it, it is very well hidden.”)— Ori Ron, Pesquisador, Checkmarx Zero
Análise e recomendações
Os pesquisadores enfatizam a facilidade de enganar o agente de IA ao usar linguagem explícita sobre contextos seguros, aproveitando a interação humano-máquina. Este problema é intensificado quando usuários não revisam cuidadosamente os prompts de permissão. Para mitigar esse risco, eles sugerem que as equipes de segurança abordem a adoção de ferramentas de IA com cautela, promovendo a educação sobre práticas seguras e implementando controles adequados para prevenir ações maliciosas.
Com o aumento da adoção de agentes de IA nas empresas, é crucial ser cético em relação a conteúdos externos e à automação integral de processos, evitando assim a exploração desse vetor de ataque.
Fonte: (Dark Reading – Segurança Cibernética)