Métodos de testes para segurança em AI são desenvolvidos

- Publicidade -

Tiago F Santiago 12/08/2025Última Atualização 12/08/2025

0 3 2 minutos de leitura

Métodos de testes para segurança em AI são desenvolvidos — InfoFlood method overview. Credit: *arXiv* (2025). DOI: 10.48550/arxiv.2506.12274

- Publicidade -

São Paulo — InkDesign News —

A pesquisa em inteligência artificial (AI) e machine learning avança com novas descobertas sobre a segurança dos modelos de linguagem de larga escala (LLMs). Pesquisadores da Universidade de Illinois em Urbana-Champaign estão focados em desenvolver métodos para testar a segurança desses sistemas frente a consultas maliciosas.

Contexto da pesquisa

O crescente uso de LLMs em aplicações populares, como chatbots, levanta preocupações sobre sua segurança. Professores e alunos, liderados por Haohan Wang e Haibo Jin, investigam vulnerabilidades existentes nos sistemas e maneiras de torná-los mais seguros.

Wang, especialista em métodos de aprendizado de máquina confiáveis, afirma que as buscas tradicionais em pesquisa de segurança “não testam o sistema de maneiras que as pessoas realmente tentariam” (“A lot of jailbreak research is trying to test the system in ways that people won’t try.”).

“Eu quero me concentrar em ameaças mais sérias — consultas maliciosas que acredito serem mais prováveis de serem feitas a um LLM”
(“I think AI security research needs to expand. We hope to push the research in a direction that is more practical—security evaluation and mitigation that will make a difference to the real world.”)

— Haohan Wang, Professor, Universidade de Illinois

Método proposto

Wang e Jin desenvolveram um modelo chamado JAMBench, que avalia as barreiras de moderação em LLMs. O método categoriza riscos em quatro áreas: discurso de ódio, violência, atos sexuais e autolesão. O foco está em criar métodos de jailbreak que contornem essas barreiras.

As pesquisas revelaram que a maioria dos estudos avalia apenas se os LLMs reconhecem a natureza prejudicial das consultas, mas não a eficácia das moderadoras para impedir informações nocivas. Os pesquisadores afirmam que seu enfoque é gráfico: “Nosso método se concentra na elaboração de prompts de jailbreak projetados para contornar as barreiras de moderação nos LLMs” (“Our approach focuses on crafting jailbreak prompts designed to bypass the moderation guardrails in LLMs.”).

Resultados e impacto

Através de novas abordagens, como a técnica chamada “InfoFlood”, que utiliza complexidade linguística para sobrecarregar modelos, eles conseguiram contornar as barreiras de segurança. Um exemplo transformou um pedido de 13 palavras para um texto com 194 palavras, confundindo o LLM.

“Se enterrarmos (uma consulta) sob prosa densa e jargão acadêmico, o LLM responderá à pergunta porque não entende realmente o que significa”
(“If we bury (a query) under really dense linguistic prose and academic jargon, will the LLM answer the question because it doesn’t really understand what the question means.”)

— Advait Yadav, Aluno, Universidade de Illinois

Além disso, os pesquisadores desenvolveram métodos para testar a conformidade dos LLMs com diretrizes governamentais de segurança, transformando requisitos abstratos em questões específicas.

As implicações desses estudos são vastas, com aplicações potenciais em melhorias práticas de segurança nos sistemas de AI, destacando a importância de manter a integridade e a confiabilidade em interações com usuários.

Fonte: (TechXplore – Machine Learning & AI)

- Publicidade -

Etiquetas

Tiago F Santiago 12/08/2025Última Atualização 12/08/2025

0 3 2 minutos de leitura

Ler o Próximo

0 0 votos

Classificação do artigo

Inscrever-se

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.

0 Comentários

Mais votado

mais recentes mais antigos

Feedbacks embutidos

Ver todos os comentários

Moises
Gostei do seu poste, existe muitos artigos em seu blog relac...
Ana Karol
Adorei conhecer seu blog, tem muito artigos bem interessante...
Marlene Coelho
Algo errado não está certo com essa foto. Arquibancada ao la...
Dennison de Oliveira
Lacrô!:) Mas pelo menos alguém pesquisou por que o título fo...

Métodos de testes para segurança em AI são desenvolvidos

São Paulo — InkDesign News —

Contexto da pesquisa

Método proposto

Resultados e impacto

Tiago F Santiago

Ler o Próximo

Machine learning ainda não supera vendedores humanos

LLM influencia normas da indústria em festivais de cinema

Deep learning detecta incêndios rapidamente em câmeras comuns

Sakana AI usa deep learning inspirado na natureza

Redes neurais físicas treinam mais eficientemente com luz

Modelos de AI calculam palavras de maneira inovadora

Swarm intelligence melhora soluções com machine learning

Modelo de AI anima filme para estreia no Cannes

Mistral fortalece liderança em IA na Europa com investimento

Sistema de banco de dados relacional impulsiona machine learning

Machine learning ainda não supera vendedores humanos

LLM influencia normas da indústria em festivais de cinema

Deep learning detecta incêndios rapidamente em câmeras comuns

Sakana AI usa deep learning inspirado na natureza

Redes neurais físicas treinam mais eficientemente com luz

Modelos de AI calculam palavras de maneira inovadora

Swarm intelligence melhora soluções com machine learning

Modelo de AI anima filme para estreia no Cannes

Mistral fortalece liderança em IA na Europa com investimento

Sistema de banco de dados relacional impulsiona machine learning

Meta lança Llama API 18x mais rápida com AI avançada

LLM do ChatGPT amplia auxílio em compras intensificando rivalidade com Google

Ataques a ONGs aumentam com ransomware globalmente

SpaceX enfrenta desafios com foguete Starship no teste 163

Como construir um app de MCQ com machine learning

Robô da RoboCup@Work League transforma processos industriais

NASA oferece desconto em câmera Canon e lente grande angular

PT lança curso sobre fé e democracia para ampliar apoio evangélico

Uerj revoga título a Médici em ação contra governo militar

Google encerra suporte a termostatos Nest antigos em 25 de outubro

Investidores pessoas físicas aumentam investimento em secondaries e IPOs atrasados viram norma no venture capital

São Paulo — InkDesign News —

Contexto da pesquisa

Método proposto

Resultados e impacto

Ler o Próximo

Machine learning ainda não supera vendedores humanos

LLM influencia normas da indústria em festivais de cinema

Deep learning detecta incêndios rapidamente em câmeras comuns

Sakana AI usa deep learning inspirado na natureza

Redes neurais físicas treinam mais eficientemente com luz

Modelos de AI calculam palavras de maneira inovadora

Swarm intelligence melhora soluções com machine learning

Modelo de AI anima filme para estreia no Cannes

Mistral fortalece liderança em IA na Europa com investimento

Sistema de banco de dados relacional impulsiona machine learning

AOL dial-up chega ao fim e lembra colapsos de impérios digitais

Model Predictive Control impulsiona eficiência em machine learning

Artigos relacionados

Robô da RoboCup@Work League transforma processos industriais

NASA oferece desconto em câmera Canon e lente grande angular

PT lança curso sobre fé e democracia para ampliar apoio evangélico

Uerj revoga título a Médici em ação contra governo militar

Google encerra suporte a termostatos Nest antigos em 25 de outubro

Investidores pessoas físicas aumentam investimento em secondaries e IPOs atrasados viram norma no venture capital

Adblock detectado