OpenAI contorna vulnerabilidade em sistema de IA

- Publicidade -

Tiago F Santiago 5 horas atrásÚltima Atualização 13/10/2025

0 30 2 minutos de leitura

OpenAI contorna vulnerabilidade em sistema de IA — Guardrail couldn’t block malicious prompts, and Guardrail fails to block indirect prompt injection (Source: HiddenLayer)

- Publicidade -

São Paulo — InkDesign News — Um novo relatório da HiddenLayer revela uma vulnerabilidade preocupante nas medidas de segurança dos Modelos de Linguagem de Grande Escala (LLMs). A OpenAI lançou recentemente seu framework de segurança Guardrails em 6 de outubro, parte da nova ferramenta AgentKit, para ajudar desenvolvedores a construir e proteger agentes de IA.

Incidente e vulnerabilidade

A pesquisa da HiddenLayer identificou que a implementação do Guardrails pode ser burlada quase imediatamente após seu lançamento. A principal falha encontrada é que a mesma modelagem utilizada para gerar respostas é a mesma empregada como verificador de segurança, resultando em uma situação em que ambas podem ser enganadas pelo mesmo vetor de ataque. Os pesquisadores conseguiram desativar os principais detectores de segurança, indicando que essa configuração é “inherentemente falha” (“inherently flawed”). Utilizando uma técnica simples, demonstraram como convencem o sistema a gerar respostas prejudiciais e realizar injeções de prompts ocultas sem acionar alarmes. Um exemplo foi encontrado em um teste em que, mesmo com 95% de confiança do detector de que o prompt era uma jailbreak, manipularam a pontuação de confiança do juiz de IA.

Impacto e resposta

As consequências desse tipo de vulnerabilidade geram uma sensação falsa de segurança. À medida que as organizações confiam cada vez mais nos LLMs para tarefas críticas, depender do próprio modelo para verificar seu comportamento torna-se um risco de segurança. Os pesquisadores também identificaram ataques indiretos de injeção de prompts que podem expor dados confidenciais do usuário. Em um caso separado, um exploit identificado como ShadowLeak, descoberto em setembro de 2025, foi capaz de enganar outro agente da OpenAI, resultando na exposição de dados privados dos usuários retirados de emails aparentemente normais.

A vulnerabilidade demonstrada exige uma camada de proteção separada e testes constantes por especialistas em segurança para identificar pontos fracos.

— HiddenLayer, Pesquisa

Mitigações recomendadas

Como resposta a essas vulnerabilidades e ao Blitz do Guardrails, é essencial que organizações implementem patches que abordem essas falhas. Além disso, recomenda-se a adoção de boas práticas, como a revisão regular dos mecanismos de segurança e a realização de testes de penetração para descobrir possíveis brechas. O uso de uma arquitetura de segurança em camadas e a validação de entradas são fundamentais para mitigar riscos.

A segurança do IA deve incluir diversas camadas de proteção e avaliações contínuas para garantir que as brechas sejam rapidamente identificadas e corrigidas.

— Especialista em Segurança, Anônimo

O panorama de segurança ainda apresenta riscos residuais, enfatizando a necessidade de respostas proativas para os desafios que a tecnologia de IA enfrenta, visando fortalecer a confiabilidade e a segurança dos sistemas.

Fonte: (Hack Read – Segurança Cibernética)

- Publicidade -

Etiquetas

Tiago F Santiago 5 horas atrásÚltima Atualização 13/10/2025

0 30 2 minutos de leitura

Ler o Próximo

0 0 votos

Classificação do artigo

Inscrever-se

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.

0 Comentários

Mais votado

mais recentes mais antigos

Feedbacks embutidos

Ver todos os comentários

Moises
Gostei do seu poste, existe muitos artigos em seu blog relac...
Ana Karol
Adorei conhecer seu blog, tem muito artigos bem interessante...
Marlene Coelho
Algo errado não está certo com essa foto. Arquibancada ao la...
Dennison de Oliveira
Lacrô!:) Mas pelo menos alguém pesquisou por que o título fo...

OpenAI contorna vulnerabilidade em sistema de IA

Incidente e vulnerabilidade

Impacto e resposta

Mitigações recomendadas

Tiago F Santiago

Ler o Próximo

Firmas financeiras devem se preparar para ataques com computação quântica

Qantas e Vietnam Airlines sofrem breach de dados por ShinyHunters

Fortra sofre ataque de ransomware por falha crítica no GoAnywhere

Invoicely sofre breach e expõe 180.000 registros sensíveis

Tesla e Red Bull são alvo de ataque de phishing

Figma abre brecha para comprometimento por AI agentiva

Chaos Ransomware recebe nova variante de ataque agressivo

Commentary se torna mais opinativa com novos ataques de phishing

Consumo de deepfake cresce, mas defesa contra ataques falha

Microsoft adiciona AI agentiva ao Sentinel contra ataques

Firmas financeiras devem se preparar para ataques com computação quântica

Qantas e Vietnam Airlines sofrem breach de dados por ShinyHunters

Fortra sofre ataque de ransomware por falha crítica no GoAnywhere

Invoicely sofre breach e expõe 180.000 registros sensíveis

Tesla e Red Bull são alvo de ataque de phishing

Figma abre brecha para comprometimento por AI agentiva

Chaos Ransomware recebe nova variante de ataque agressivo

Commentary se torna mais opinativa com novos ataques de phishing

Consumo de deepfake cresce, mas defesa contra ataques falha

Microsoft adiciona AI agentiva ao Sentinel contra ataques

Meta lança Llama API 18x mais rápida com AI avançada

LLM do ChatGPT amplia auxílio em compras intensificando rivalidade com Google

LIGO revela 10 descobertas sobre ondas gravitacionais

Ataques a ONGs aumentam com ransomware globalmente

SpaceX enfrenta desafios com foguete Starship no teste 163

Uerj revoga título a Médici em ação contra governo militar

PT lança curso sobre fé e democracia para ampliar apoio evangélico

Robô da RoboCup@Work League transforma processos industriais

NASA oferece desconto em câmera Canon e lente grande angular

Estudo aponta que kiwis e pão de centeio aliviam constipação

Aura lança digital frame Aspen com recursos inteligentes por US$229

Incidente e vulnerabilidade

Impacto e resposta

Mitigações recomendadas

Ler o Próximo

Firmas financeiras devem se preparar para ataques com computação quântica

Qantas e Vietnam Airlines sofrem breach de dados por ShinyHunters

Fortra sofre ataque de ransomware por falha crítica no GoAnywhere

Invoicely sofre breach e expõe 180.000 registros sensíveis

Tesla e Red Bull são alvo de ataque de phishing

Figma abre brecha para comprometimento por AI agentiva

Chaos Ransomware recebe nova variante de ataque agressivo

Commentary se torna mais opinativa com novos ataques de phishing

Consumo de deepfake cresce, mas defesa contra ataques falha

Microsoft adiciona AI agentiva ao Sentinel contra ataques

Projeto leva educação musical a crianças em áreas vulneráveis

Amazon vende 50 Pokémon cards aleatórios com 50% de desconto

Artigos relacionados

Uerj revoga título a Médici em ação contra governo militar

PT lança curso sobre fé e democracia para ampliar apoio evangélico

Robô da RoboCup@Work League transforma processos industriais

NASA oferece desconto em câmera Canon e lente grande angular

Estudo aponta que kiwis e pão de centeio aliviam constipação

Aura lança digital frame Aspen com recursos inteligentes por US$229

Adblock detectado