
São Paulo — InkDesign News — Pesquisadores de segurança revelaram que em apenas 24 horas após o lançamento do GPT-5, conseguiram burlar o modelo de linguagem através de uma técnica de “jailbreak”, permitindo a geração de conteúdo perigoso, como instruções para fabricar uma bomba caseira.
Vetor de ataque
A abordagem utilizada pelos pesquisadores da NeuralTrust foi a técnica de “jailbreak” por meio de um método denominado “Echo Chamber and Storytelling”. Essa técnica baseia-se na criação de um contexto conversacional tendencioso que, ao longo de múltiplos turnos de interação, leva o modelo a produzir conteúdo potencialmente nocivo sem utilizar linguagem explicitamente insegura no início dos prompts. O algoritmo Echo Chamber foi usado para “semear e reforçar um contexto conversacional sutilmente venenoso”, enquanto a narrativa orientava o modelo para longe de indicações de intenção explícitas.
Impacto e resposta
O uso combinado da técnica de “Echo Chamber” e storytelling não apenas evidenciou uma fragilidade nos sistemas de segurança de IA, mas também destacou a insuficiência de filtros baseados em palavras-chave ou intenção em cenários de múltiplos turnos. Essa vulnerabilidade permite que a contaminação gradual do contexto escape dos detectores de intenção, uma preocupação crítica para segurança cibernética nas interações com modelos de linguagem.
“Filtros baseados em palavras-chave ou intenção são insuficientes em configurações de múltiplos turnos, onde o contexto pode ser gradualmente contaminado e, então, ecoado sob a fachada de continuidade”
(“Keyword or intent-based filters are insufficient in multi-turn settings where context can be gradually poisoned and then echoed back under the guise of continuity.”)— Martí Jordà Roca, Engenheiro de Software, NeuralTrust
Análise e recomendações
Este tipo de ataque foi bem-sucedido devido à pressão de continuidade narrativa, o que permitiu que o modelo avançasse em direção ao objetivo sem disparar resistência. As organizações que utilizam LLMs devem implementar defesas que monitorem o desvio de contexto e detectem ciclos de persuasão, em vez de se basear apenas na leitura de intenção de um único turno. A formação de equipes de resposta a incidentes e a implementação de um gateway de IA são recomendadas para mitigar esses jailbreaks.
Em um futuro próximo, espera-se que as empresas de tecnologia respondam a essas descobertas de segurança reforçando suas arquiteturas de defesa e abordagens de segurança, aproveitando as lições aprendidas para melhor proteger seus sistemas.
Fonte: (Dark Reading – Segurança Cibernética)