
São Paulo — InkDesign News — A integração de inteligência artificial (IA), modelos de linguagem de grande escala (LLMs) e aprendizado profundo (deep learning) está transformando a maneira como projetos de visão computacional, como a identificação de danos em laptops, são abordados no mercado.
Tecnologia e abordagem
Um dos desafios notáveis encontrados em um projeto recente foi a implementação de um modelo capaz de identificar danos físicos em laptops a partir de fotografias. O modelo inicial baseava-se em uma abordagem de prompt monolítico, utilizando um LLM para passar imagens e solicitar a identificação de danos visíveis. No entanto, questões como alucinações, onde o modelo reportava danos inexistentes, e a incapacidade de detectar imagens irrelevantes prejudicaram a confiabilidade do sistema.
Para mitigar esses problemas, os pesquisadores experimentaram uma abordagem multimodal, na qual legendas são geradas a partir das imagens. Embora essa técnica tenha mostrado potencial, as alucinações persistiram, e a cobertura das falhas em diferentes danos foi incompleta.
Aplicação e desempenho
O turning point ocorreu com a adoção de um framework agente, que organiza a análise de imagens em agentes especializados. O framework foi dividido em um agente orquestrador que identificava componentes visíveis, diversos agentes de componentes dedicados à inspeção de danos específicos e um agente de detecção de lixo, capaz de identificar se a imagem enviada realmente se tratava de um laptop.
Este modelo modular aprimorou significativamente a precisão e a explicabilidade dos resultados, reduzindo o número de alucinações e garantindo que imagens de baixa relevância fossem filtradas corretamente. Contudo, a latência aumentou devido à execução de múltiplos agentes sequentialmente, além de lacunas de cobertura em casos não programados.
Impacto e mercado
Para equilibrar a precisão e a cobertura, foi introduzido um sistema híbrido que combina o framework de agentes com a abordagem monolítica. O primeiro identifica danos conhecidos, enquanto o segundo analisa a imagem para detectar problemas não identificados inicialmente. Esta integração resultou em uma solução mais robusta, demonstrando o valor de métodos diversos na construção de sistemas de IA.
“
As estruturas agentes são mais versáteis do que se imagina, e podem aumentar significativamente o desempenho dos modelos quando aplicadas de maneira estruturada e modular.
(“Agentic frameworks are more versatile than they get credit for, and can meaningfully boost model performance when applied in a structured, modular way.”)— Shruti Tiwari, Gerente de Produto de IA, Dell Technologies
”
Este avanço não apenas destaca a adaptabilidade das técnicas de IA, mas também ilustra a importância de sistemas de controle de qualidade e de filtragem de dados. À medida que a tecnologia avança, é provável que mais empresas considerem abordagens mistas para aumentar a precisão de suas soluções de IA.
Próximos passos incluem a possível adaptação do framework para outros setores, aumentando seu impacto e escalabilidade em aplicações variadas.
Fonte: (VentureBeat – AI)