OpenAI enfrenta vazamento de dados após jailbreak do GPT-5

- Publicidade -

Tiago F Santiago 12/08/2025Última Atualização 12/08/2025

0 11 2 minutos de leitura

OpenAI enfrenta vazamento de dados após jailbreak do GPT-5 — Echo Chamber, Prompts Used to Jailbreak GPT-5 in 24 Hours

- Publicidade -

São Paulo — InkDesign News — Pesquisadores de segurança revelaram que em apenas 24 horas após o lançamento do GPT-5, conseguiram burlar o modelo de linguagem através de uma técnica de “jailbreak”, permitindo a geração de conteúdo perigoso, como instruções para fabricar uma bomba caseira.

Vetor de ataque

A abordagem utilizada pelos pesquisadores da NeuralTrust foi a técnica de “jailbreak” por meio de um método denominado “Echo Chamber and Storytelling”. Essa técnica baseia-se na criação de um contexto conversacional tendencioso que, ao longo de múltiplos turnos de interação, leva o modelo a produzir conteúdo potencialmente nocivo sem utilizar linguagem explicitamente insegura no início dos prompts. O algoritmo Echo Chamber foi usado para “semear e reforçar um contexto conversacional sutilmente venenoso”, enquanto a narrativa orientava o modelo para longe de indicações de intenção explícitas.

Impacto e resposta

O uso combinado da técnica de “Echo Chamber” e storytelling não apenas evidenciou uma fragilidade nos sistemas de segurança de IA, mas também destacou a insuficiência de filtros baseados em palavras-chave ou intenção em cenários de múltiplos turnos. Essa vulnerabilidade permite que a contaminação gradual do contexto escape dos detectores de intenção, uma preocupação crítica para segurança cibernética nas interações com modelos de linguagem.

“Filtros baseados em palavras-chave ou intenção são insuficientes em configurações de múltiplos turnos, onde o contexto pode ser gradualmente contaminado e, então, ecoado sob a fachada de continuidade”
(“Keyword or intent-based filters are insufficient in multi-turn settings where context can be gradually poisoned and then echoed back under the guise of continuity.”)

— Martí Jordà Roca, Engenheiro de Software, NeuralTrust

Análise e recomendações

Este tipo de ataque foi bem-sucedido devido à pressão de continuidade narrativa, o que permitiu que o modelo avançasse em direção ao objetivo sem disparar resistência. As organizações que utilizam LLMs devem implementar defesas que monitorem o desvio de contexto e detectem ciclos de persuasão, em vez de se basear apenas na leitura de intenção de um único turno. A formação de equipes de resposta a incidentes e a implementação de um gateway de IA são recomendadas para mitigar esses jailbreaks.

Em um futuro próximo, espera-se que as empresas de tecnologia respondam a essas descobertas de segurança reforçando suas arquiteturas de defesa e abordagens de segurança, aproveitando as lições aprendidas para melhor proteger seus sistemas.

Fonte: (Dark Reading – Segurança Cibernética)

- Publicidade -

Etiquetas

Tiago F Santiago 12/08/2025Última Atualização 12/08/2025

0 11 2 minutos de leitura

Ler o Próximo

0 0 votos

Classificação do artigo

Inscrever-se

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.

0 Comentários

Mais votado

mais recentes mais antigos

Feedbacks embutidos

Ver todos os comentários

Moises
Gostei do seu poste, existe muitos artigos em seu blog relac...
Ana Karol
Adorei conhecer seu blog, tem muito artigos bem interessante...
Marlene Coelho
Algo errado não está certo com essa foto. Arquibancada ao la...
Dennison de Oliveira
Lacrô!:) Mas pelo menos alguém pesquisou por que o título fo...

OpenAI enfrenta vazamento de dados após jailbreak do GPT-5

Vetor de ataque

Impacto e resposta

Análise e recomendações

Tiago F Santiago

Ler o Próximo

Hackers chineses se passam por legislador dos EUA em ataque

Philippine Military Firm sofre ataque com malware EggStreme

Revolução silenciosa em segurança Kubernetes enfrenta ataques zero-day

Ataque com AsyncRAT utiliza malware para roubo de credenciais

Plataforma de cibersegurança da empresa X combate ransomware

Hello Gym revela breach e expõe 1,6 milhão de arquivos de áudio

Navegadores se tornam novos alvos para ataques de phishing

Novas vulnerabilidades de malware afetam redes governamentais

Centros de fraude do Sudeste Asiático enfrentam sanções financeiras

Microsoft corrige falhas de zero-day no Patch Day

Hackers chineses se passam por legislador dos EUA em ataque

Philippine Military Firm sofre ataque com malware EggStreme

Revolução silenciosa em segurança Kubernetes enfrenta ataques zero-day

Ataque com AsyncRAT utiliza malware para roubo de credenciais

Plataforma de cibersegurança da empresa X combate ransomware

Hello Gym revela breach e expõe 1,6 milhão de arquivos de áudio

Navegadores se tornam novos alvos para ataques de phishing

Novas vulnerabilidades de malware afetam redes governamentais

Centros de fraude do Sudeste Asiático enfrentam sanções financeiras

Microsoft corrige falhas de zero-day no Patch Day

Meta lança Llama API 18x mais rápida com AI avançada

LLM do ChatGPT amplia auxílio em compras intensificando rivalidade com Google

Ataques a ONGs aumentam com ransomware globalmente

SpaceX enfrenta desafios com foguete Starship no teste 163

Como construir um app de MCQ com machine learning

Robô da RoboCup@Work League transforma processos industriais

NASA oferece desconto em câmera Canon e lente grande angular

PT lança curso sobre fé e democracia para ampliar apoio evangélico

Uerj revoga título a Médici em ação contra governo militar

Google encerra suporte a termostatos Nest antigos em 25 de outubro

Investidores pessoas físicas aumentam investimento em secondaries e IPOs atrasados viram norma no venture capital

Vetor de ataque

Impacto e resposta

Análise e recomendações

Ler o Próximo

Hackers chineses se passam por legislador dos EUA em ataque

Philippine Military Firm sofre ataque com malware EggStreme

Revolução silenciosa em segurança Kubernetes enfrenta ataques zero-day

Ataque com AsyncRAT utiliza malware para roubo de credenciais

Plataforma de cibersegurança da empresa X combate ransomware

Hello Gym revela breach e expõe 1,6 milhão de arquivos de áudio

Navegadores se tornam novos alvos para ataques de phishing

Novas vulnerabilidades de malware afetam redes governamentais

Centros de fraude do Sudeste Asiático enfrentam sanções financeiras

Microsoft corrige falhas de zero-day no Patch Day

Microsoft deixa 29 mil servidores vulneráveis a ataque

Inserção no mercado de trabalho melhora habilidade de leitura

Artigos relacionados

Robô da RoboCup@Work League transforma processos industriais

NASA oferece desconto em câmera Canon e lente grande angular

PT lança curso sobre fé e democracia para ampliar apoio evangélico

Uerj revoga título a Médici em ação contra governo militar

Google encerra suporte a termostatos Nest antigos em 25 de outubro

Investidores pessoas físicas aumentam investimento em secondaries e IPOs atrasados viram norma no venture capital

Adblock detectado