
Vulnerabilidades em Modelos de Linguagem Grande
Pesquisas recentes em machine learning indicam que modelos de linguagem grande (LLMs) podem ser mais suscetíveis a ataques do que anteriormente acreditado. Um estudo conduzido pela Anthropic, pelo UK AI Security Institute e pelo Alan Turing Institute mostra que apenas 250 documentos maliciosos podem comprometer até os maiores modelos.
Contexto da pesquisa
A maioria dos dados utilizados para treinar LLMs é coletada na internet, o que, embora ajude na construção de conhecimento, também os torna vulneráveis a ataques de envenenamento de dados. A pesquisa publicada no arXiv motiva uma necessidade urgente por investigações mais profundas na segurança desses modelos.
Método proposto
Os pesquisadores construíram LLMs a partir do zero, variando de sistemas pequenos (600 milhões de parâmetros) a muito grandes (13 bilhões de parâmetros). Cada modelo foi treinado em grandes volumes de dados limpos, mas uma quantidade fixa de arquivos maliciosos (entre 100 e 500) foi inserida em cada um deles para simular um ataque.
Resultados e impacto
Os resultados foram alarmantes: “nossos resultados sugerem que injetar backdoors através de envenenamento de dados pode ser mais fácil para modelos grandes do que se acreditava anteriormente, já que o número de venenos necessários não aumenta com o tamanho do modelo” (
“our results suggest that injecting backdoors through data poisoning may be easier for large models than previously believed, as the number of poisons required does not scale up with model size.”
— Alexandra Souly, Pesquisadora, Anthropic
). Um ataque bem-sucedido exigiu apenas 250 documentos maliciosos para ativar um backdoor secreto que levava o modelo a adotar comportamentos indesejados.
Os dados demonstram que adicionar grandes volumes de dados limpos não dilui o potencial do malware ou impede um ataque, o que implica a necessidade de desenvolvimento de defesas robustas.
As próximas etapas incluem intensificar a pesquisa em métodos de defesa mais eficazes para mitigar esses riscos em futuras implementações de modelos de AI.
Fonte: (TechXplore – Machine Learning & AI)