
São Paulo — InkDesign News — O uso de algoritmos de machine learning e deep learning tem revolucionado o campo da visão computacional, trazendo avanços notáveis na detecção de características em imagens e vídeos.
Arquitetura de modelo
Os modelos de visão computacional empregam técnicas avançadas, como a detecção de características, que envolve a identificação de regiões distintas em imagens. Os descritores de características criados a partir dessas regiões podem ser combinados para tarefas como correspondência de imagens e reconstrução de cenas. Essa abordagem permite que os algoritmos reconheçam padrões complexos.
A ideia é simples: ao pegar um pixel na imagem e vários pixels nas suas proximidades, encontramos a soma de uma multiplicação elemento a elemento com um kernel específico.
(“The idea is simple: by taking a pixel in the image and several pixels in its neighborhood, we find the sum of an element-wise multiplication with a given kernel.”)— Autor Desconhecido, Visão Computacional
Treinamento e otimização
Ao utilizar o histórico de intensidades dos pixels, é possível calcular a intensidade média de uma imagem usando bibliotecas como OpenCV. O método de convolução revela a velocidade de mudanças de intensidade ao longo dos eixos X e Y. A aplicação do operador Sobel, que usa kernels 3×3, aprimora a detecção de bordas ao levar em consideração mais informações do que os kernels unidimensionais anteriores.
Se o valor da derivada for significativo em uma região da imagem, isso significa que a intensidade muda drasticamente ali.
(“If the derivative value is significant in a given image region, it means that the intensity changes drastically there.”)— Autor Desconhecido, Análise de Imagem
Resultados e métricas
Os resultados com o operador Sobel mostram um desempenho sólido na detecção de bordas em imagens. Testes realizados na biblioteca OpenCV indicam que as diferenças entre o operador Sobel e o operador Scharr são sutis, porém, o último tende a oferecer maior precisão em tarefas de detecção de bordas. A análise da faixa de valores das saídas ressalta a diferença significativa na capacidade de cada operador.
Apesar de sua semelhança substancial com a estrutura do operador Sobel, o kernel Scharr consegue uma precisão maior nas tarefas de detecção de bordas.
(“Despite its substantial similarity with the structure of the Sobel operator, the Scharr kernel achieves higher accuracy in edge detection tasks.”)— Autor Desconhecido, Pesquisa em Visão Computacional
Concluindo, a implementação de fundamentos de cálculo em machine learning e deep learning em visão computacional propõe uma nova forma de detectar picos de intensidade nas imagens. A próxima fase envolve o aprofundamento em algoritmos mais complexos para detecção de características.
Fonte: (Towards Data Science – AI, ML & Deep Learning)