
Oxford — InkDesign News — Um estudo recente da Universidade de Oxford revela que imagens aparentemente comuns, como papéis de parede e posts em redes sociais, podem ser manipuladas para enganar agentes de inteligência artificial (IA), com o potencial de executar comandos maliciosos em computadores pessoais. O trabalho destaca um novo vetor de ataque digital, ainda não observado fora de ambientes experimentais, que amplia o risco com a popularização de agentes de IA previstos para 2025.
O Contexto da Pesquisa
O crescimento acelerado das aplicações de IA, e especialmente dos agentes autônomos, acende um alerta sobre possíveis vulnerabilidades em sistemas abertos. Enquanto chatbots como o ChatGPT apenas respondem a perguntas, agentes de IA possuem maior autonomia para interagir com o computador do usuário, realizando tarefas como abrir abas, preencher formulários e clicar em botões. Essa capacidade eleva os riscos de segurança, uma vez que qualquer comprometimento pode levar ao vazamento ou destruição de dados sensíveis.
Resultados e Metodologia
Pesquisadores demonstraram que imagens sabotadas podem esconder comandos imperceptíveis ao olho humano, mas capazes de direcionar agentes a executar ações adversas — como divulgar senhas ou autopropagar o ataque via redes sociais. Segundo Yarin Gal, coautor do estudo e professor associado de machine learning na Universidade de Oxford:
“Uma imagem alterada, como uma foto de Taylor Swift no Twitter, pode ser suficiente para acionar o agente no computador de alguém para agir de forma maliciosa. Qualquer imagem sabotada pode realmente fazer um computador republicar aquela imagem e depois executar algo nocivo, como enviar todas as suas senhas. Isso significa que a próxima pessoa que visualizar sua timeline do Twitter e que tenha um agente rodando também terá seu computador comprometido.”
(“An altered picture of Taylor Swift on Twitter could be sufficient to trigger the agent on someone’s computer to act maliciously. Any sabotaged image can actually trigger a computer to retweet that image and then do something malicious, like send all your passwords. That means that the next person who sees your Twitter feed and happens to have an agent running will have their computer poisoned as well.”)— Yarin Gal, Professor Associado, Universidade de Oxford
O método utiliza pequenas alterações nos pixels das imagens, invisíveis para humanos, mas que reconfiguram padrões numéricos reconhecidos pelo modelo de IA, desencadeando ações programadas pelos atacantes. Agentes de código aberto são mais vulneráveis, já que seus mecanismos internos podem ser estudados e explorados por terceiros.
Implicações e Próximos Passos
O estudo reforça a urgência na implementação de barreiras de proteção antes da massificação dos agentes inteligentes. Segundo Philip Torr, coautor do estudo:
“Eles precisam estar muito atentos a essas vulnerabilidades, por isso publicamos este artigo — porque a esperança é que as pessoas percebam que essa é uma vulnerabilidade real e sejam mais cautelosas ao implementar sistemas agentes.”
(“They have to be very aware of these vulnerabilities, which is why we’re publishing this paper — because the hope is that people will actually see this is a vulnerability and then be a bit more sensible in the way they deploy their agentic system.”)— Philip Torr, Coautor do Estudo, Universidade de Oxford
Os próximos desafios incluem desenvolver mecanismos de defesa robustos, como o re-treinamento dos modelos com padrões de ataque fortalecidos, além de ampliar a transparência em sistemas proprietários. Especialistas alertam que somente a compreensão detalhada dos sistemas pode revelar falhas e orientar soluções eficazes.
À medida que agentes de IA se aproximam do cotidiano, pesquisadores e desenvolvedores deverão priorizar medidas preventivas, como a restrição de comandos derivados de elementos visuais da tela. O estudo aponta que a segurança desses sistemas será fundamental para mitigar uma nova geração de ataques digitais.
Fonte: (Live Science – Ciência)