K2 Think tem modelo de AI invadido poucas horas após lançamento

São Paulo — InkDesign News — Um novo modelo de inteligência artificial, o K2 Think, foi rapidamente “jailbreakado” logo após seu lançamento, explorando uma vulnerabilidade chamada “Partial Prompt Leaking”. Essa falha permite que atores maliciosos manipulem o sistema, comprometendo sua segurança.
Vetor de ataque
O K2 Think, desenvolvido pela Mohamed bin Zayed University of Artificial Intelligence (MBZUAI) e pela G42, apresenta uma arquitetura baseada em 32 bilhões de parâmetros. A vulnerabilidade “Partial Prompt Leaking” facilita a exploração dos métodos de raciocínio do modelo, permitindo que usuários mal-intencionados elaborem prompts manipulativos. Alex Polyakov, da Adversa AI, explica que isso ocorre porque o modelo é excessivamente transparente:
“Quando a camada de raciocínio é visível, K2 é mais fácil de mapear e jailbreakar do que modelos típicos.
(“When the reasoning layer is visible, K2 is easier to map and jailbreak than typical models.”)— Alex Polyakov, Pesquisador, Adversa AI
Impacto e resposta
Após a exploração da falha, o K2 Think demonstrou a capacidade de explicar sua lógica em texto claro. Isso levou à identificação das regras de segurança que estavam sendo violadas, permitindo que os pesquisadores ajustassem seus prompts para contornar as defesas do sistema. A primeira tentativa de jailbreak falhou, mas revelou obstáculos adicionais.
Por exemplo, em uma das interações, o modelo se recusou a fornecer informações sobre atividades ilícitas, como “como hotwiring um carro”, embora permitisse que os pesquisadores vissem seu processo de raciocínio.
Análise e recomendações
Os desenvolvedores do K2 Think têm um desafio pela frente: equilibrar a transparência, que pode ser uma vantagem, com as necessidades de segurança. Polyakov observa que, embora a verdadeira transparência seja valiosa, ela também torna o modelo vulnerável, uma vez que as regras de segurança expostas podem ser exploradas para contornar proteções. É crucial, portanto, que as organizações de IA considerem:
- Implementação de regras de segurança que não possam ser facilmente deduzidas;
- Introdução de sistemas que imitam armadilhas de segurança para desviar ataques;
- Limitação de tentativas de prompts maliciosos, semelhante a métodos de proteção por senha.
O setor de IA deve encarar o raciocínio como uma superfície crítica de segurança, e não apenas um recurso desejável. Esse episódio serve como um alerta para a indústria.
Fonte: (Dark Reading – Segurança Cibernética)