
São Paulo — InkDesign News —
A utilização de modelos de aprendizagem de máquina (machine learning), em especial os modelos de linguagem visual (VLM), tem avançado na criação de descrições de vídeos para usuários cegos ou com baixa visão. Pesquisadores da Universidade Northeastern estão inovando na acessibilidade desse tipo de conteúdo, especialmente em plataformas de vídeo como YouTube e TikTok.
Contexto da pesquisa
Neste cenário, a dificuldade de se obter descrições de vídeos gerados por usuários se revela crítica. Apenas 7% dos vídeos solicitados na plataforma YouDescribe recebem essas descrições. A iniciativa, que visa preencher essa lacuna, foi intensificada por novas tecnologias de inteligência artificial que melhoram a qualidade das descrições.
Método proposto
O método de pesquisa utiliza modelos de linguagem visual (VLM) que analisam e descrevem ações em vídeos. Como mencionado por Lana Do, “é compreensível que um vídeo de 20 segundos no TikTok de alguém dançando pode não receber uma descrição profissional” (“It’s understandable that a 20-second video on TikTok of somebody dancing may not get a professional description”). A pesquisa também inclui um fluxo de trabalho com intervenção humana, onde os usuários podem corrigir erros nas descrições geradas pela AI, utilizando uma interface colaborativa.
Resultados e impacto
Os resultados mostram um aumento significativo na eficiência da criação de descrições com a ajuda da AI, reduzindo o tempo necessário para a conclusão das tarefas. As métricas de desempenho incluem uma comparação entre as descrições geradas automaticamente e as feitas por humanos, permitindo ajustes nos algoritmos treinados. Adicionalmente, a plataforma conta com 3.000 voluntários que ajudam a descrever vídeos, mas ainda há uma longa lista de pedidos pendentes.
“Os usuários cegos não querem ser distraídos com muita descrição verbal. É uma arte editorial verbalizar as informações mais importantes de forma concisa.”
(“Blind users don’t want to get distracted with too much verbal description. It’s an editorial art to verbalize the most important information in a concise way.”)— Ilmi Yoon, Professor de Ciência da Computação, Universidade Northeastern
O avanço nas tecnologias de AI espera melhorar a acessibilidade em larga escala, potencialmente beneficiando milhões que dependem de descrições para entender melhor o conteúdo visual. O próximo passo envolve a contínua refinamento dos algoritmos e a ampliação dos recursos da plataforma YouDescribe, visando oferecer uma experiência mais rica e informativa.
Fonte: (TechXplore – Machine Learning & AI)