Filtragem de dados impede AI de realizar tarefas perigosas

- Publicidade -

Tiago F Santiago 12/08/2025Última Atualização 12/08/2025

0 9 2 minutos de leitura

Filtragem de dados impede AI de realizar tarefas perigosas — Our multi-stage data filtering pipeline. Credit: *arXiv* (2025). DOI: 10.48550/arxiv.2508.06601

- Publicidade -

Pesquisadores da Universidade de Oxford, EleutherAI e do UK AI Security Institute desenvolveram uma abordagem inovadora em machine learning que visa proteger modelos de linguagem de código aberto. A pesquisa destaca como a filtragem de dados pode prevenir que esses modelos adquiram conhecimentos prejudiciais durante o treinamento.

Contexto da pesquisa

A pesquisa representa um avanço significativo no campo da inteligência artificial (AI) em relação à segurança de modelos abertos. Esse tipo de modelo é crucial para a transparência e a colaboração em pesquisa, mas também apresenta riscos, pois pode ser adaptado para usos maliciosos. A dificuldade reside em distribuir esses modelos sem aumentar o risco de uso indevido.

Método proposto

A equipe utilizou uma multi-stage filtering pipeline, que combina listas de bloqueio de palavras-chave e um classificador baseado em aprendizado de máquina para detectar conteúdos de alto risco. Essa abordagem filtrou 8-9% do conjunto de dados, garantindo a preservação da riqueza de informações gerais. Os modelos foram então treinados a partir desses dados filtrados, permitindo que eles resistissem à exposição a até 25.000 documentos sobre biotemas.

A pesquisa “filtragem de dados do pré-treinamento constrói salvaguardas resistentes a manipulações em LLMs de código aberto” mostra que a filtragem de dados pode ser uma ferramenta poderosa para ajudar os desenvolvedores a equilibrar segurança e inovação em AI de código aberto.
(“our study therefore shows that data filtration can be a powerful tool in helping developers balance safety and innovation in open-source AI.”)

— Stephen Casper, UK AI Security Institute

Resultados e impacto

Os modelos resultantes demonstraram desempenho equivalente em tarefas padrões, como raciocínio de senso comum e questões científicas. A filtragem da fase de pré-treinamento foi dez vezes mais efetiva do que métodos anteriores de segurança, provando resiliência mesmo sob ataques adversariais com 10.000 passos e mais de 300 milhões de tokens de ajuste fino direcionado.

A comunidade de pesquisa fez grandes avanços na segurança da AI, mas um desafio remanescente é proteger modelos de peso aberto.
(“the research community has made great progress with AI safeguards over the past few years, but a remaining massive challenge is safeguarding open weight models—how do we build models that we can distribute to all without raising risks of misuse.”)

— Yarin Gal, Universidade de Oxford

Esta pesquisa foi publicada como um preprint no arXiv e abre portas para futuras aplicações, exigindo uma reavaliação das estratégias de segurança em inteligência artificial.

Fonte: (TechXplore – Machine Learning & AI)

- Publicidade -

Etiquetas

Tiago F Santiago 12/08/2025Última Atualização 12/08/2025

0 9 2 minutos de leitura

Ler o Próximo

0 0 votos

Classificação do artigo

Inscrever-se

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.

0 Comentários

Mais votado

mais recentes mais antigos

Feedbacks embutidos

Ver todos os comentários

Moises
Gostei do seu poste, existe muitos artigos em seu blog relac...
Ana Karol
Adorei conhecer seu blog, tem muito artigos bem interessante...
Marlene Coelho
Algo errado não está certo com essa foto. Arquibancada ao la...
Dennison de Oliveira
Lacrô!:) Mas pelo menos alguém pesquisou por que o título fo...

Filtragem de dados impede AI de realizar tarefas perigosas

Contexto da pesquisa

Método proposto

Resultados e impacto

Tiago F Santiago

Ler o Próximo

Modelo leve acelera detecção de objetos com machine learning

LLM recebe apoio judicial em acordo de direitos autorais de R$ 7,5 bi

AI pode impulsionar machine learning na América Latina

Redes neurais e AI mostram padrões na cooperação de ratos

Modelos de AI: personificação ajuda ou atrapalha?

LLM escreve sua redação, mas não soa como você

Machine learning otimiza atendimento ao cliente em várias situações

AI impulsiona Spotify a adotar medidas de transparência

ML revela o apelo do ‘AI slop’ no cinema inicial

Deep learning gera vozes indistinguíveis de humanas

Modelo leve acelera detecção de objetos com machine learning

LLM recebe apoio judicial em acordo de direitos autorais de R$ 7,5 bi

AI pode impulsionar machine learning na América Latina

Redes neurais e AI mostram padrões na cooperação de ratos

Modelos de AI: personificação ajuda ou atrapalha?

LLM escreve sua redação, mas não soa como você

Machine learning otimiza atendimento ao cliente em várias situações

AI impulsiona Spotify a adotar medidas de transparência

ML revela o apelo do ‘AI slop’ no cinema inicial

Deep learning gera vozes indistinguíveis de humanas

Meta lança Llama API 18x mais rápida com AI avançada

LLM do ChatGPT amplia auxílio em compras intensificando rivalidade com Google

LIGO revela 10 descobertas sobre ondas gravitacionais

Ataques a ONGs aumentam com ransomware globalmente

SpaceX enfrenta desafios com foguete Starship no teste 163

Uerj revoga título a Médici em ação contra governo militar

PT lança curso sobre fé e democracia para ampliar apoio evangélico

Robô da RoboCup@Work League transforma processos industriais

NASA oferece desconto em câmera Canon e lente grande angular

SUS investiga mortes por intoxicação de metanol em SP

Aura lança digital frame Aspen com recursos inteligentes por US$229

Contexto da pesquisa

Método proposto

Resultados e impacto

Ler o Próximo

Modelo leve acelera detecção de objetos com machine learning

LLM recebe apoio judicial em acordo de direitos autorais de R$ 7,5 bi

AI pode impulsionar machine learning na América Latina

Redes neurais e AI mostram padrões na cooperação de ratos

Modelos de AI: personificação ajuda ou atrapalha?

LLM escreve sua redação, mas não soa como você

Machine learning otimiza atendimento ao cliente em várias situações

AI impulsiona Spotify a adotar medidas de transparência

ML revela o apelo do ‘AI slop’ no cinema inicial

Deep learning gera vozes indistinguíveis de humanas

Anthropic aprimora LLM com processamento de projetos completos

AI transforma o diálogo espiritual na cultura geek

Artigos relacionados

Uerj revoga título a Médici em ação contra governo militar

PT lança curso sobre fé e democracia para ampliar apoio evangélico

Robô da RoboCup@Work League transforma processos industriais

NASA oferece desconto em câmera Canon e lente grande angular

SUS investiga mortes por intoxicação de metanol em SP

Aura lança digital frame Aspen com recursos inteligentes por US$229

Adblock detectado