
O novo sistema de inteligência artificial, chamado SketchAgent, desenvolvido pelo MIT e pela Universidade de Stanford, utiliza um modelo de linguagem multimodal para transformar comandos textuais em esboços em poucos segundos, trazendo avanços significativos no campo de machine learning.
Contexto da pesquisa
Tradicionalmente, os modelos de IA têm se mostrado proficientes na geração de imagens realistas, mas falham em capturar o processo iterativo de esboçamento, essencial para o brainstorming humano.
Método proposto
O SketchAgent utiliza um approach denominado “sketching language”, que traduz esboços em sequências numeradas de traços em uma grade, permitindo que o modelo aprenda a desenhar de forma mais natural. Este processo não depende de dados treinados especificamente, mas utiliza modelos de linguagem pré-treinados, como o Claude 3.5 Sonnet, para generalizar novos conceitos.
“Nosso objetivo é emular o processo de esboçamento humano, tornando os modelos de linguagem multimodal mais úteis para a expressão visual de ideias.”
(“Our tool aims to emulate that process, making multimodal language models more useful in helping us visually express ideas.”)— Yael Vinker, Pesquisadora, MIT
Resultados e impacto
Os pesquisadores demonstraram que o SketchAgent pode criar representações abstratas de conceitos diversificados, como robôs e diagramas de fluxo, coletando dados de colaborações humanas e permitindo que a IA se integre aos processos criativos. Durante os testes, a inclusão de contribuições do modelo se provou vital para a coesão dos esboços finais. O modelo demonstrou uma performance superior em relação a outros, como o GPT-4o, com Claude 3.5 Sonnet produzindo esboços mais reconhecíveis.
“A superioridade do Claude 3.5 Sonnet sugere que este modelo processa e gera informações visuais de maneira diferente.”
(“The fact that Claude 3.5 Sonnet outperformed other models like GPT-4o suggests that this model processes and generates visual-related information differently.”)— Tamar Rott Shaham, Co-autora, MIT
Embora o SketchAgent ainda não possa criar esboços profissionais, suas capacidades já sugerem aplicações promissoras no ensino e na visualização de conceitos complexos. Os próximos passos incluem refinar a interação entre humanos e a IA, além de melhorar a precisão nos esboços produzidos.
Fonte: (TechXplore – Machine Learning & AI)