Conjunto de dados da AI revela milhões de dados pessoais

- Publicidade -

Tiago F Santiago 18/07/2025Última Atualização 18/07/2025

0 16 2 minutos de leitura

Conjunto de dados da AI revela milhões de dados pessoais — Stephanie Arnett/MIT Technology Review | Adobe Stock, Envato

- Publicidade -

São Paulo — InkDesign News — Uma recente pesquisa conduzida por William Agnew e colegas da Carnegie Mellon University revelou questões alarmantes sobre a ética no uso de datasets de inteligência artificial, destacando a coleta de informações pessoais não autorizadas.

Contexto da pesquisa

O estudo nasceu da necessidade de compreender os impactos da coleta de dados via web scraping, prática comum na construção de bancos de dados utilizados para treinar modelos de machine learning. DataComp CommonPool, a maior coleção de pares de imagem-texto disponível publicamente, foi desenvolvida como um complemento ao LAION-5B e pretende facilitar a pesquisa acadêmica. Entretanto, suas permissões de uso não excluem aplicações comerciais, gerando preocupações em relação à privacidade.

Método e resultados

A equipe de pesquisa analisou cerca de 12,8 bilhões de amostras de dados, onde identificou milhares de documentos de identidade validados, incluindo cartões de crédito e licenças de motorista. Eles também encontraram mais de 800 currículos que continham informações sensíveis, como status de deficiência e dados sobre dependentes. A validação de alguns documentos foi possível através de buscas em plataformas como LinkedIn. Em termos de metodologias, o estudo utilizou scraping realizado pelo Common Crawl, documentando a acumulação de dados entre 2014 e 2022.

“Você pode assumir que qualquer dado coletado em larga escala via scraping sempre contém conteúdo que não deveria estar lá.”
(“You can assume that any large scale web-scraped data always contains content that shouldn’t be there.”)

— Abeba Birhane, Cientista Cognitiva, Trinity College Dublin

Implicações e próximos passos

Os resultados levantam questões éticas relevantes sobre o uso de dados pessoais em modelos de machine learning, especialmente em um contexto onde cerca de 2 milhões de downloads foram realizados do CommonPool nos últimos dois anos. As implicações para a privacidade são substanciais, uma vez que múltiplos modelos podem estar utilizando dados semelhantes, gerando riscos de exposição de informações pessoais em diversas plataformas. A equipe sugere que a regulamentação e a transparência na coleta de dados se tornam urgentes.

“As boas intenções não são suficientes.”
(“Good intentions are not enough.”)

— William Agnew, Pós-doutorando em Ética da IA, Carnegie Mellon University

Esses achados enfatizam a necessidade de uma abordagem cuidadosa e ética na manipulação de dados pessoais pela comunidade científica e por empresas que utilizam inteligência artificial. O futuro da pesquisa em IA dependerá da capacidade de equilibrar inovação e respeito à privacidade.

Fonte: (MIT Technology Review – Artificial Intelligence)

- Publicidade -

Etiquetas

Tiago F Santiago 18/07/2025Última Atualização 18/07/2025

0 16 2 minutos de leitura

Ler o Próximo

0 0 votos

Classificação do artigo

Inscrever-se

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.

0 Comentários

Mais votado

mais recentes mais antigos

Feedbacks embutidos

Ver todos os comentários

Moises
Gostei do seu poste, existe muitos artigos em seu blog relac...
Ana Karol
Adorei conhecer seu blog, tem muito artigos bem interessante...
Marlene Coelho
Algo errado não está certo com essa foto. Arquibancada ao la...
Dennison de Oliveira
Lacrô!:) Mas pelo menos alguém pesquisou por que o título fo...

Conjunto de dados da AI revela milhões de dados pessoais

Contexto da pesquisa

Método e resultados

Implicações e próximos passos

Tiago F Santiago

Ler o Próximo

AI transforma educadores em engenheiros da tecnologia educacional

Empresas de AI precisam evoluir estratégias de modelos generativos

Google libera dados do Google Maps para apps com AI

Codev utiliza AI para evitar problemas com código em empresas

Arte gerada por IA expande fronteiras no leilão da Sotheby’s

Google e OpenAI disputam protocolos de AI no comércio eletrônico

Modelos generativos ganham criatividade com novo prompt

ACE desenvolve playbooks para agentes de AI autossustentáveis

Lançamentos de AI: uma guia técnica para LLMs e modelos generativos

Anthropic melhora Claude com LLM mais rápido e barato

AI transforma educadores em engenheiros da tecnologia educacional

Empresas de AI precisam evoluir estratégias de modelos generativos

Google libera dados do Google Maps para apps com AI

Codev utiliza AI para evitar problemas com código em empresas

Arte gerada por IA expande fronteiras no leilão da Sotheby’s

Google e OpenAI disputam protocolos de AI no comércio eletrônico

Modelos generativos ganham criatividade com novo prompt

ACE desenvolve playbooks para agentes de AI autossustentáveis

Lançamentos de AI: uma guia técnica para LLMs e modelos generativos

Anthropic melhora Claude com LLM mais rápido e barato

Meta lança Llama API 18x mais rápida com AI avançada

LLM do ChatGPT amplia auxílio em compras intensificando rivalidade com Google

LIGO revela 10 descobertas sobre ondas gravitacionais

Ataques a ONGs aumentam com ransomware globalmente

STF valida alta programada e fim do auxílio-doença do INSS

Uerj revoga título a Médici em ação contra governo militar

PT lança curso sobre fé e democracia para ampliar apoio evangélico

Robô da RoboCup@Work League transforma processos industriais

NASA oferece desconto em câmera Canon e lente grande angular

Pesquisa revela como micróbios consomem carbono oceânico

Aura lança digital frame Aspen com recursos inteligentes por US$229

Contexto da pesquisa

Método e resultados

Implicações e próximos passos

Ler o Próximo

AI transforma educadores em engenheiros da tecnologia educacional

Empresas de AI precisam evoluir estratégias de modelos generativos

Google libera dados do Google Maps para apps com AI

Codev utiliza AI para evitar problemas com código em empresas

Arte gerada por IA expande fronteiras no leilão da Sotheby’s

Google e OpenAI disputam protocolos de AI no comércio eletrônico

Modelos generativos ganham criatividade com novo prompt

ACE desenvolve playbooks para agentes de AI autossustentáveis

Lançamentos de AI: uma guia técnica para LLMs e modelos generativos

Anthropic melhora Claude com LLM mais rápido e barato

NASA observa exoplaneta encolhendo sob os raios-X

KeyShot e YD lançam desafio Pantone com prêmios de US$ 3.000

Artigos relacionados

Uerj revoga título a Médici em ação contra governo militar

PT lança curso sobre fé e democracia para ampliar apoio evangélico

Robô da RoboCup@Work League transforma processos industriais

NASA oferece desconto em câmera Canon e lente grande angular

Pesquisa revela como micróbios consomem carbono oceânico

Aura lança digital frame Aspen com recursos inteligentes por US$229

Adblock detectado