- Publicidade -
- Publicidade -
- Publicidade -
Segurança Cibernética

K2 Think tem modelo de AI invadido poucas horas após lançamento

- Publicidade -
- Publicidade -

São Paulo — InkDesign News — Um novo modelo de inteligência artificial, o K2 Think, foi rapidamente “jailbreakado” logo após seu lançamento, explorando uma vulnerabilidade chamada “Partial Prompt Leaking”. Essa falha permite que atores maliciosos manipulem o sistema, comprometendo sua segurança.

Vetor de ataque

O K2 Think, desenvolvido pela Mohamed bin Zayed University of Artificial Intelligence (MBZUAI) e pela G42, apresenta uma arquitetura baseada em 32 bilhões de parâmetros. A vulnerabilidade “Partial Prompt Leaking” facilita a exploração dos métodos de raciocínio do modelo, permitindo que usuários mal-intencionados elaborem prompts manipulativos. Alex Polyakov, da Adversa AI, explica que isso ocorre porque o modelo é excessivamente transparente:

“Quando a camada de raciocínio é visível, K2 é mais fácil de mapear e jailbreakar do que modelos típicos.
(“When the reasoning layer is visible, K2 is easier to map and jailbreak than typical models.”)

— Alex Polyakov, Pesquisador, Adversa AI

Impacto e resposta

Após a exploração da falha, o K2 Think demonstrou a capacidade de explicar sua lógica em texto claro. Isso levou à identificação das regras de segurança que estavam sendo violadas, permitindo que os pesquisadores ajustassem seus prompts para contornar as defesas do sistema. A primeira tentativa de jailbreak falhou, mas revelou obstáculos adicionais.

Por exemplo, em uma das interações, o modelo se recusou a fornecer informações sobre atividades ilícitas, como “como hotwiring um carro”, embora permitisse que os pesquisadores vissem seu processo de raciocínio.

Análise e recomendações

Os desenvolvedores do K2 Think têm um desafio pela frente: equilibrar a transparência, que pode ser uma vantagem, com as necessidades de segurança. Polyakov observa que, embora a verdadeira transparência seja valiosa, ela também torna o modelo vulnerável, uma vez que as regras de segurança expostas podem ser exploradas para contornar proteções. É crucial, portanto, que as organizações de IA considerem:

  • Implementação de regras de segurança que não possam ser facilmente deduzidas;
  • Introdução de sistemas que imitam armadilhas de segurança para desviar ataques;
  • Limitação de tentativas de prompts maliciosos, semelhante a métodos de proteção por senha.

O setor de IA deve encarar o raciocínio como uma superfície crítica de segurança, e não apenas um recurso desejável. Esse episódio serve como um alerta para a indústria.

Fonte: (Dark Reading – Segurança Cibernética)

- Publicidade -
- Publicidade -

Tiago F Santiago

Tiago F. Santiago é Analista de Marketing na C2HSolutions, onde, em sua atuação fixa, combina estratégia e tecnologia para impulsionar soluções digitais. Paralelamente, dedica-se como hobby à InkDesign News, contribuindo com a criação de notícias e conteúdos jornalísticos. Apaixonado por programação, ele projeta aplicações web e desenvolve sites sob medida, apoiando-se em sua sólida expertise em infraestrutura de nuvem — dominando Amazon Web Services, Microsoft Azure e Google Cloud — para garantir que cada projeto seja escalável, seguro e de alta performance. Sua versatilidade e experiência técnica permitem-lhe transformar ideias em produtos digitais inovadores.

Artigos relacionados

0 0 votos
Classificação do artigo
Inscrever-se
Notificar de
guest

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.

0 Comentários
Mais votado
mais recentes mais antigos
Feedbacks embutidos
Ver todos os comentários
- Publicidade -
Botão Voltar ao topo
0
Adoraria saber sua opinião, comente.x
Fechar

Adblock detectado

Olá! Percebemos que você está usando um bloqueador de anúncios. Para manter nosso conteúdo gratuito e de qualidade, contamos com a receita de publicidade.
Por favor, adicione o InkDesign News à lista de permissões do seu adblocker e recarregue a página.
Obrigado pelo seu apoio!