
Transformadores Visuais Autodidatas Imitam Olhar Humano com Precisão Surpreendente
Pesquisadores da Universidade de Osaka demonstraram que modelos de machine learning podem desenvolver padrões de atenção visual semelhantes aos humanos, mesmo sem instruções rotuladas. Este avanço na inteligência artificial (AI) desafia as limitações do aprendizado supervisionado.
Contexto da pesquisa
A busca por um entendimento mais profundo sobre como os sistemas artificiais interpretam o mundo levou à exploração dos transformadores visuais (ViTs), modelos robustos de deep learning voltados para análise de imagens. A capacidade de aprendizado espontâneo em AI ainda é um desafio, especialmente na possível imitação da atenção visual humana.
Método proposto
Os pesquisadores utilizaram um método denominado DINO (“auto-distinção sem rótulos”), que é parte do aprendizado auto-supervisionado. Essa abordagem permite que os modelos organizem informações visuais sem depender de conjuntos de dados anotados. As versões treinadas com DINO foram comparadas com dados de rastreamento ocular de humanos, revelando um alinhamento notável entre os padrões de atenção dos ViTs e dos participantes humanos.
Resultados e impacto
Os ViTs treinados com DINO demonstraram um comportamento de atenção que se assemelha ao dos adultos típicos, especialmente ao observar clipes de vídeo dinâmicos. O estudo revelou clusters de atenção que emergiram de forma natural nos ViTs, com padrões qualitativos e quantitativos que refletiram os dados de rastreamento ocular conhecidos. Isso sugere uma potencial extensão do modelo tradicional de percepção figura-fundo, integrando uma terceira dimensão.
“O que torna este resultado notável é que esses modelos nunca foram informados sobre o que é um rosto,” explica o autor sênior, Shigeru Kitazawa. “Ainda assim, aprenderam a priorizar rostos, provavelmente porque isso maximiza a informação obtida de seu ambiente.”
(“What makes this result remarkable is that these models were never told what a face is. Yet they learned to prioritize faces, probably because doing so maximized the information gained from their environment.”)— Shigeru Kitazawa, Autor Sênior, Universidade de Osaka
A pesquisa ressalta o potencial do aprendizado auto-supervisionado, não apenas para aplicações em AI, mas também para modelar aspectos da visão biológica. Esses avanços não só aproximam os sistemas artificiais da percepção humana, mas também oferecem novas perspectivas para a interpretação do machine learning e da cognição humana.
As descobertas podem ter aplicações em robôs amigáveis ao usuário ou em sistemas de suporte para o desenvolvimento na infância.
Fonte: (TechXplore – Machine Learning & AI)