
São Paulo — InkDesign News — Uma recente pesquisa conduzida por William Agnew e colegas da Carnegie Mellon University revelou questões alarmantes sobre a ética no uso de datasets de inteligência artificial, destacando a coleta de informações pessoais não autorizadas.
Contexto da pesquisa
O estudo nasceu da necessidade de compreender os impactos da coleta de dados via web scraping, prática comum na construção de bancos de dados utilizados para treinar modelos de machine learning. DataComp CommonPool, a maior coleção de pares de imagem-texto disponível publicamente, foi desenvolvida como um complemento ao LAION-5B e pretende facilitar a pesquisa acadêmica. Entretanto, suas permissões de uso não excluem aplicações comerciais, gerando preocupações em relação à privacidade.
Método e resultados
A equipe de pesquisa analisou cerca de 12,8 bilhões de amostras de dados, onde identificou milhares de documentos de identidade validados, incluindo cartões de crédito e licenças de motorista. Eles também encontraram mais de 800 currículos que continham informações sensíveis, como status de deficiência e dados sobre dependentes. A validação de alguns documentos foi possível através de buscas em plataformas como LinkedIn. Em termos de metodologias, o estudo utilizou scraping realizado pelo Common Crawl, documentando a acumulação de dados entre 2014 e 2022.
“Você pode assumir que qualquer dado coletado em larga escala via scraping sempre contém conteúdo que não deveria estar lá.”
(“You can assume that any large scale web-scraped data always contains content that shouldn’t be there.”)— Abeba Birhane, Cientista Cognitiva, Trinity College Dublin
Implicações e próximos passos
Os resultados levantam questões éticas relevantes sobre o uso de dados pessoais em modelos de machine learning, especialmente em um contexto onde cerca de 2 milhões de downloads foram realizados do CommonPool nos últimos dois anos. As implicações para a privacidade são substanciais, uma vez que múltiplos modelos podem estar utilizando dados semelhantes, gerando riscos de exposição de informações pessoais em diversas plataformas. A equipe sugere que a regulamentação e a transparência na coleta de dados se tornam urgentes.
“As boas intenções não são suficientes.”
(“Good intentions are not enough.”)— William Agnew, Pós-doutorando em Ética da IA, Carnegie Mellon University
Esses achados enfatizam a necessidade de uma abordagem cuidadosa e ética na manipulação de dados pessoais pela comunidade científica e por empresas que utilizam inteligência artificial. O futuro da pesquisa em IA dependerá da capacidade de equilibrar inovação e respeito à privacidade.
Fonte: (MIT Technology Review – Artificial Intelligence)