- Publicidade -
- Publicidade -
- Publicidade -
AI, ML & Deep Learning

AI multimodal melhora modelagem com novas arquiteturas

- Publicidade -
- Publicidade -

São Paulo — InkDesign News — O crescente interesse em machine learning e deep learning tem levado a inovações impressionantes na área de inteligência artificial (IA), especialmente na compreensão de cenas. Um projeto recente, o VisionScout, busca desenvolver um sistema multimodal que não apenas reconhece objetos, mas também compreende o contexto em que estão inseridos.

Arquitetura de modelo

O projeto VisionScout se diferencia ao integrar diversos modelos de IA, como YOLOv8 para detecção, CLIP para raciocínio semântico, e Places365 para classificação de cenas. Segundo o autor, a maior dificuldade foi fazer com que esses modelos colaborassem eficientemente, sem sobreposições em suas funções. Ao final, ele descreve a arquitetura como “um quebra-cabeças estrutural” que precisava de um planejamento meticuloso.

“A verdadeira compreensão de uma cena significa entender questões como: Onde estou? O que está acontecendo aqui? Há algo que eu deva estar ciente?”
(“True scene understanding means asking questions like: Where is this? What’s going on here? Is there anything I should be aware of?”)

— Autor, Desenvolvedor do VisionScout

Treinamento e otimização

O sistema inicialmente apresentava apenas dados de detecção, mas logo se percebeu a necessidade de uma abordagem mais robusta. O autor implementou um método que ajusta o peso de cada modelo com base em suas informações de confiança, permitindo que o sistema se adapte a diferentes tipos de entrada. No entanto, essa integração complicou a estrutura, resultando em um código que superava 2.000 linhas, exigindo uma reavaliação completa.

“Se um modelo estava especialmente confiante em uma cena, o sistema dava a ele mais peso. Mas, quando a situação era menos clara, outros modelos poderiam liderar.”
(“If one model was especially confident about a scene, the system gave it more weight. But when things were less clear, other models were allowed to take the lead.”)

— Autor, Desenvolvedor do VisionScout

Resultados e métricas

Após diversas iterações e refinamentos, o VisionScout não apenas melhorou na precisão de detecções, mas também se tornou mais confiável em interpretar contextos variados. A nova abordagem de dar autonomia ao usuário para ativar ou desativar recursos, como o reconhecimento de marcos, mostrou-se eficaz na redução de falsos positivos, equilibrando flexibilidade e precisão. O autor conclui que um sistema deve ser projetado não apenas para automatizar o processo, mas também para fornecer previsibilidade e adaptabilidade em um ambiente em constante mudança.

Os passos seguintes incluem aplicar o VisionScout em cenários do mundo real, potencialmente transformando a análise de imagens e vídeos em setores como segurança e marketing, onde a compreensão contextual é crucial.

Fonte: (Towards Data Science – AI, ML & Deep Learning)

- Publicidade -
- Publicidade -

Tiago F Santiago

Tiago F. Santiago é Analista de Marketing na C2HSolutions, onde, em sua atuação fixa, combina estratégia e tecnologia para impulsionar soluções digitais. Paralelamente, dedica-se como hobby à InkDesign News, contribuindo com a criação de notícias e conteúdos jornalísticos. Apaixonado por programação, ele projeta aplicações web e desenvolve sites sob medida, apoiando-se em sua sólida expertise em infraestrutura de nuvem — dominando Amazon Web Services, Microsoft Azure e Google Cloud — para garantir que cada projeto seja escalável, seguro e de alta performance. Sua versatilidade e experiência técnica permitem-lhe transformar ideias em produtos digitais inovadores.

Artigos relacionados

0 0 votos
Classificação do artigo
Inscrever-se
Notificar de
guest

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.

0 Comentários
Mais votado
mais recentes mais antigos
Feedbacks embutidos
Ver todos os comentários
- Publicidade -
Botão Voltar ao topo
0
Adoraria saber sua opinião, comente.x
Fechar

Adblock detectado

Olá! Percebemos que você está usando um bloqueador de anúncios. Para manter nosso conteúdo gratuito e de qualidade, contamos com a receita de publicidade.
Por favor, adicione o InkDesign News à lista de permissões do seu adblocker e recarregue a página.
Obrigado pelo seu apoio!