
Em um cenário onde o potencial do machine learning e da inteligência artificial (AI) se expande, a qualidade dos dados se torna crucial. Um novo estudo de pesquisadores da Universidade Atlantic Florida destaca um método inovador para detectar e remover rótulos errôneos.
Contexto da pesquisa
Modelos de machine learning, como as Máquinas de Vetores de Suporte (SVM), são amplamente utilizados em tarefas que vão desde o reconhecimento de imagens até diagnósticos médicos. Esses modelos dependem de um subconjunto crítico de dados, os support vectors, cuja rotulagem correta é vital. Um rótulo incorreto pode comprometer a eficácia do modelo, levando a diagnósticos errados e falhas em sistemas de segurança. A pesquisa foi conduzida pelo Center for Connected Autonomy and Artificial Intelligence (CA-AI) da Universidade Florida Atlantic.
Método proposto
O estudo introduz uma abordagem que utiliza a análise de componentes principais com a norma L1, permitindo a identificação automática de dados anômalos. Essa técnica visa detectar outliers que não se encaixam nos padrões do conjunto de dados, removendo ou sinalizando esses pontos antes que o modelo seja treinado. Diferentemente de métodos convencionais, que permitem ajustes manuais, essa abordagem é escalável e prática, sendo capaz de intervir sem intervenção do usuário.
Resultados e impacto
A técnica foi testada em conjuntos de dados reais e sintéticos com diferentes níveis de contaminação de rótulos. Os resultados mostraram melhorias consistentes na acurácia das classificações. Segundo Dimitris Pados, um dos pesquisadores envolvidos, “dados que se afastam significativamente do restante, muitas vezes devido a erros de rotulagem, são identificados e removidos” (
“Data points that appear to deviate significantly from the rest—often due to label errors—are flagged and removed.”
— Dimitris Pados, Ph.D., FAU
).
Os testes realizados, incluindo benchmarks como o conjunto de dados de Câncer de Mama de Wisconsin, confirmaram que o novo método pode ser uma etapa padrão de pré-processamento para a criação de sistemas de machine learning de alta performance, elevando a precisão na classificação mesmo em dados que pareciam limpos.
Com a crescente integração do machine learning em áreas críticas, como cuidados de saúde e justiça, a pesquisa propõe um caminho para uma melhor qualidade de dados, essencial para garantir resultados eficazes e éticos.
“Ao melhorar a qualidade dos dados na origem, antes mesmo do modelo ser treinado, não estamos apenas aumentando a precisão da AI; estamos tornando-a mais responsável” (
“By improving data quality at the source—before the model is even trained—we’re not just making AI more accurate; we’re making it more responsible.”
— Stella Batalama, Ph.D., FAU
).
O futuro do método desenvolvido abre novas possibilidades na busca por reduzir preconceitos e melhorar a integridade dos conjuntos de dados em ciência de dados.
Fonte: (TechXplore – Machine Learning & AI)