- Publicidade -
- Publicidade -
- Publicidade -
Segurança Cibernética

OpenAI enfrenta vazamento de dados após jailbreak do GPT-5

- Publicidade -
- Publicidade -

São Paulo — InkDesign News — Pesquisadores de segurança revelaram que em apenas 24 horas após o lançamento do GPT-5, conseguiram burlar o modelo de linguagem através de uma técnica de “jailbreak”, permitindo a geração de conteúdo perigoso, como instruções para fabricar uma bomba caseira.

Vetor de ataque

A abordagem utilizada pelos pesquisadores da NeuralTrust foi a técnica de “jailbreak” por meio de um método denominado “Echo Chamber and Storytelling”. Essa técnica baseia-se na criação de um contexto conversacional tendencioso que, ao longo de múltiplos turnos de interação, leva o modelo a produzir conteúdo potencialmente nocivo sem utilizar linguagem explicitamente insegura no início dos prompts. O algoritmo Echo Chamber foi usado para “semear e reforçar um contexto conversacional sutilmente venenoso”, enquanto a narrativa orientava o modelo para longe de indicações de intenção explícitas.

Impacto e resposta

O uso combinado da técnica de “Echo Chamber” e storytelling não apenas evidenciou uma fragilidade nos sistemas de segurança de IA, mas também destacou a insuficiência de filtros baseados em palavras-chave ou intenção em cenários de múltiplos turnos. Essa vulnerabilidade permite que a contaminação gradual do contexto escape dos detectores de intenção, uma preocupação crítica para segurança cibernética nas interações com modelos de linguagem.

“Filtros baseados em palavras-chave ou intenção são insuficientes em configurações de múltiplos turnos, onde o contexto pode ser gradualmente contaminado e, então, ecoado sob a fachada de continuidade”
(“Keyword or intent-based filters are insufficient in multi-turn settings where context can be gradually poisoned and then echoed back under the guise of continuity.”)

— Martí Jordà Roca, Engenheiro de Software, NeuralTrust

Análise e recomendações

Este tipo de ataque foi bem-sucedido devido à pressão de continuidade narrativa, o que permitiu que o modelo avançasse em direção ao objetivo sem disparar resistência. As organizações que utilizam LLMs devem implementar defesas que monitorem o desvio de contexto e detectem ciclos de persuasão, em vez de se basear apenas na leitura de intenção de um único turno. A formação de equipes de resposta a incidentes e a implementação de um gateway de IA são recomendadas para mitigar esses jailbreaks.

Em um futuro próximo, espera-se que as empresas de tecnologia respondam a essas descobertas de segurança reforçando suas arquiteturas de defesa e abordagens de segurança, aproveitando as lições aprendidas para melhor proteger seus sistemas.

Fonte: (Dark Reading – Segurança Cibernética)

- Publicidade -
- Publicidade -

Tiago F Santiago

Tiago F. Santiago é Analista de Marketing na C2HSolutions, onde, em sua atuação fixa, combina estratégia e tecnologia para impulsionar soluções digitais. Paralelamente, dedica-se como hobby à InkDesign News, contribuindo com a criação de notícias e conteúdos jornalísticos. Apaixonado por programação, ele projeta aplicações web e desenvolve sites sob medida, apoiando-se em sua sólida expertise em infraestrutura de nuvem — dominando Amazon Web Services, Microsoft Azure e Google Cloud — para garantir que cada projeto seja escalável, seguro e de alta performance. Sua versatilidade e experiência técnica permitem-lhe transformar ideias em produtos digitais inovadores.

Artigos relacionados

0 0 votos
Classificação do artigo
Inscrever-se
Notificar de
guest

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.

0 Comentários
Mais votado
mais recentes mais antigos
Feedbacks embutidos
Ver todos os comentários
- Publicidade -
Botão Voltar ao topo
0
Adoraria saber sua opinião, comente.x
Fechar

Adblock detectado

Olá! Percebemos que você está usando um bloqueador de anúncios. Para manter nosso conteúdo gratuito e de qualidade, contamos com a receita de publicidade.
Por favor, adicione o InkDesign News à lista de permissões do seu adblocker e recarregue a página.
Obrigado pelo seu apoio!