- Publicidade -
- Publicidade -
Robótica & Automação

IA embarcada melhora geração de imagens com Yuki Mitsufuji

- Publicidade -
- Publicidade -

São Paulo — InkDesign News — Pesquisas recentes na Sony AI apresentam avanços significativos em robótica cognitiva e automação visual, com foco em geração de imagens e otimização de modelos de difusão para aplicações em tempo real, utilizando algoritmos avançados de visão computacional e machine learning.

Tecnologia aplicada

O trabalho liderado por Yuki Mitsufuji aborda dois desafios na geração automatizada de imagens: a síntese de novas vistas a partir de uma única imagem (single-shot novel view synthesis) e a redução do custo computacional de modelos de difusão para geração rápida. No primeiro caso, o método GenWarp utiliza um modelo de difusão com injeção de informações semânticas e profundidade monocular via mecanismo de cross-attention, eliminando a tradicional abordagem em duas fases (warp e interpolação). Isso melhora a qualidade e precisão das imagens geradas mesmo para mudanças severas de ângulo, demonstrado por métricas como FID e PSNR.

No segundo desafio, o modelo PaGoDA propõe uma arquitetura de treinamento progressivo para um gerador one-step derivado de um professor (teacher) de baixa resolução. A técnica elimina a necessidade de re-treinamento para diferentes resoluções, otimizando o processo de distilação e tornando a geração até 80 vezes mais rápida ao reduzir drasticamente a quantidade de passos iterativos, comum nos modelos de difusão tradicionais.

Desenvolvimento e testes

Ambos os modelos foram testados em ambientes controlados de laboratório com imagens 2D, utilizando conjuntos de dados para análise objetiva da qualidade e velocidade de geração. GenWarp foi avaliado subjetivamente por meio de um demo aberto, onde usuários podem visualizar imagens originais e suas versões geradas em múltiplos ângulos (https://huggingface.co/spaces/Sony/genwarp). PaGoDA, por sua vez, foi validado em diversas resoluções (64×64 a 256×256 e superiores) para assegurar a robustez e eficiência do treinamento progressivo.

Impacto e aplicações

Estes avanços têm implicações práticas importantes para robótica e automação, especialmente em sistemas que demandam geração rápida de imagens para navegação, inspeção visual e animações em tempo real. A possibilidade de geração one-step pode ser expandida para outras modalidades, incluindo som, conforme indicam os pesquisadores. Tal melhoria promete reduzir latências e aumentar a autonomia de robôs em ambientes dinâmicos, possibilitando respostas mais rápidas e precisas.

“Queremos alcançar a geração em tempo real, não apenas para imagens, mas também para som.”
(“Ultimately, we want to achieve real-time generation, and not just have this generation be limited to images. Real-time sound generation is an area that we are looking at.”)

— Yuki Mitsufuji, Lead Research Scientist, Sony AI

Além disso, a integração entre modelos de difusão de alta qualidade e eficiência computacional posiciona-se como uma ferramenta estratégica para automação de processos criativos e industriais que utilizam visão computacional e aprendizado profundo.

Saiba mais em Robótica e Automação.

Fonte: (Robohub – Robótica & Automação)

- Publicidade -
- Publicidade -

Tiago F Santiago

Tiago F. Santiago é Analista de Marketing na C2HSolutions, onde, em sua atuação fixa, combina estratégia e tecnologia para impulsionar soluções digitais. Paralelamente, dedica-se como hobby à InkDesign News, contribuindo com a criação de notícias e conteúdos jornalísticos. Apaixonado por programação, ele projeta aplicações web e desenvolve sites sob medida, apoiando-se em sua sólida expertise em infraestrutura de nuvem — dominando Amazon Web Services, Microsoft Azure e Google Cloud — para garantir que cada projeto seja escalável, seguro e de alta performance. Sua versatilidade e experiência técnica permitem-lhe transformar ideias em produtos digitais inovadores.

Artigos relacionados

0 0 votos
Classificação do artigo
Inscrever-se
Notificar de
guest

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.

0 Comentários
Mais votado
mais recentes mais antigos
Feedbacks embutidos
Ver todos os comentários
- Publicidade -
Botão Voltar ao topo
0
Adoraria saber sua opinião, comente.x
Fechar

Adblock detectado

Olá! Percebemos que você está usando um bloqueador de anúncios. Para manter nosso conteúdo gratuito e de qualidade, contamos com a receita de publicidade.
Por favor, adicione o InkDesign News à lista de permissões do seu adblocker e recarregue a página.
Obrigado pelo seu apoio!