ML reforça resistência a reconfigurações indevidas na AI

- Publicidade -

Tiago F Santiago 05/09/2025Última Atualização 05/09/2025

0 5 1 minuto de leitura

ML reforça resistência a reconfigurações indevidas na AI — (A) We investigate early exits from different image encoder layers and find that VLM safety alignment varies, leading to what we term Image Encoder Early Exit (ICET) vulnerability. We propose Layer-wise Clip-PPO (L-PPO) to alleviate ICET. (B) With the same input (image and prompt), choosing different image encoder layers significantly affects the safety of the output response. (C) Safety training is applied with the model’s default settings and architecture, but limited generalization creates vulnerabilities, leaving parts of the embedding space uncovered when architectural changes occur (e.g., using a different intermediate layer embedding than during training). Credit: *arXiv* (2024). DOI: 10.48550/arxiv.2411.04291

- Publicidade -

Recentemente, pesquisadores desenvolveram um método inovador para preservar a segurança em modelos de AI mesmo quando estes são reduzidos para operar em dispositivos de baixo consumo, como smartphones e veículos.

Contexto da pesquisa

Pesquisadores da Universidade da Califórnia, Riverside, abordaram o desafio das vulnerabilidades em modelos de código aberto em machine learning ao serem podados para eficiência. Modelos como esses, que podem ser baixados e executados offline, têm a vantagem da transparência, mas também uma maior suscetibilidade a abusos devido à ausência de supervisão contínua.

Método proposto

A equipe focou na preservação das características de segurança essenciais, que frequentemente se perdem quando as camadas internas são puladas para economizar recursos. O modelo de linguagem-visual LLaVA 1.5 foi o foco da pesquisa, onde combinações específicas de imagens e perguntas prejudiciais demonstraram contornar filtros de segurança.

“Algumas das camadas puladas se mostraram essenciais para prevenir respostas inseguras.”
(“Some of the skipped layers turn out to be essential for preventing unsafe outputs.”)

— Amit Roy-Chowdhury, Professor, Universidade da Califórnia, Riverside

Resultados e impacto

Após o re-treinamento, o modelo reagiu de maneira segura a consultas perigosas, mesmo funcionando com apenas uma fração de sua arquitetura original, provando a eficácia da técnica. Essa abordagem não depende de filtros externos, mas sim transforma a compreensão interna do modelo sobre conteúdos arriscados.

“Não se trata de adicionar filtros ou guardrails externos; estamos mudando o entendimento interno do modelo, para que ele esteja em ‘bom comportamento’ por padrão.”
(“This isn’t about adding filters or external guardrails; we’re changing the model’s internal understanding, so it’s on good behavior by default.”)

— Saketh Bachu, Estudante de Pós-Graduação, Universidade da Califórnia, Riverside

O trabalho busca garantir que a segurança se mantenha em todas as camadas internas de modelos de AI, estabelecendo uma base robusta para aplicações em condições do mundo real. As próximas etapas incluem o desenvolvimento de técnicas que assegurem a integridade de todos os aspectos da AI em cenários variados.

Fonte: (TechXplore – Machine Learning & AI)

- Publicidade -

Etiquetas

Tiago F Santiago 05/09/2025Última Atualização 05/09/2025

0 5 1 minuto de leitura

Ler o Próximo

0 0 votos

Classificação do artigo

Inscrever-se

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.

0 Comentários

Mais votado

mais recentes mais antigos

Feedbacks embutidos

Ver todos os comentários

Moises
Gostei do seu poste, existe muitos artigos em seu blog relac...
Ana Karol
Adorei conhecer seu blog, tem muito artigos bem interessante...
Marlene Coelho
Algo errado não está certo com essa foto. Arquibancada ao la...
Dennison de Oliveira
Lacrô!:) Mas pelo menos alguém pesquisou por que o título fo...

ML reforça resistência a reconfigurações indevidas na AI

Contexto da pesquisa

Método proposto

Resultados e impacto

Tiago F Santiago

Ler o Próximo

Machine learning ainda não supera vendedores humanos

LLM influencia normas da indústria em festivais de cinema

Deep learning detecta incêndios rapidamente em câmeras comuns

Sakana AI usa deep learning inspirado na natureza

Redes neurais físicas treinam mais eficientemente com luz

Modelos de AI calculam palavras de maneira inovadora

Swarm intelligence melhora soluções com machine learning

Modelo de AI anima filme para estreia no Cannes

Mistral fortalece liderança em IA na Europa com investimento

Sistema de banco de dados relacional impulsiona machine learning

Machine learning ainda não supera vendedores humanos

LLM influencia normas da indústria em festivais de cinema

Deep learning detecta incêndios rapidamente em câmeras comuns

Sakana AI usa deep learning inspirado na natureza

Redes neurais físicas treinam mais eficientemente com luz

Modelos de AI calculam palavras de maneira inovadora

Swarm intelligence melhora soluções com machine learning

Modelo de AI anima filme para estreia no Cannes

Mistral fortalece liderança em IA na Europa com investimento

Sistema de banco de dados relacional impulsiona machine learning

Meta lança Llama API 18x mais rápida com AI avançada

LLM do ChatGPT amplia auxílio em compras intensificando rivalidade com Google

Ataques a ONGs aumentam com ransomware globalmente

SpaceX enfrenta desafios com foguete Starship no teste 163

Como construir um app de MCQ com machine learning

Robô da RoboCup@Work League transforma processos industriais

NASA oferece desconto em câmera Canon e lente grande angular

PT lança curso sobre fé e democracia para ampliar apoio evangélico

Uerj revoga título a Médici em ação contra governo militar

Google encerra suporte a termostatos Nest antigos em 25 de outubro

Investidores pessoas físicas aumentam investimento em secondaries e IPOs atrasados viram norma no venture capital

Contexto da pesquisa

Método proposto

Resultados e impacto

Ler o Próximo

Machine learning ainda não supera vendedores humanos

LLM influencia normas da indústria em festivais de cinema

Deep learning detecta incêndios rapidamente em câmeras comuns

Sakana AI usa deep learning inspirado na natureza

Redes neurais físicas treinam mais eficientemente com luz

Modelos de AI calculam palavras de maneira inovadora

Swarm intelligence melhora soluções com machine learning

Modelo de AI anima filme para estreia no Cannes

Mistral fortalece liderança em IA na Europa com investimento

Sistema de banco de dados relacional impulsiona machine learning

AI avança com supercomputador mais rápido da Europa

Waymo nega acesso a filmagens sem mandado judicial

Artigos relacionados

Robô da RoboCup@Work League transforma processos industriais

NASA oferece desconto em câmera Canon e lente grande angular

PT lança curso sobre fé e democracia para ampliar apoio evangélico

Uerj revoga título a Médici em ação contra governo militar

Google encerra suporte a termostatos Nest antigos em 25 de outubro

Investidores pessoas físicas aumentam investimento em secondaries e IPOs atrasados viram norma no venture capital

Adblock detectado