- Publicidade -
- Publicidade -
- Publicidade -
AI, ML & Deep Learning

Modelos de machine learning desafiam rebalanço 50/50

- Publicidade -
- Publicidade -

São Paulo — InkDesign News —
A busca pela eficiência em machine learning continua a desafiar as convenções, especialmente em relação ao reequilíbrio de dados para evitar vieses de classe. Um novo estudo questiona se a reordenação ideal de 50/50 é de fato a melhor abordagem.

Arquitetura de modelo

A questão do equilíbrio de classes em modelos de classificação binária vem ganhando destaque em pesquisas recentes. Como observado em estudos, a abordagem tradicional de ajustar os dados para um equilíbrio 50/50 pode não ser a mais eficaz. O pesquisador F. Kamalov e colaboradores demonstraram que a imprecisão da prática popular pode levar a resultados subótimos. Segundo os autores, “a opção de ter uma leve predominância do classificador maior pode ser benéfica”, destacando que um desequilíbrio de 43% é mais comum em diversas aplicações.

A opção de ter uma leve predominância do classificador maior pode ser benéfica.
(“The option to have a slight predominance of the majority classifier may be beneficial.”)

— F. Kamalov, Pesquisador, Universidade de Tecnologia

A estrutura dos dados muitas vezes determina como um modelo aprende e se ajusta. A flexibilidade em ajustar a proporção de classes é fundamental, pois cada aplicação pode responder de maneira diferente a alterações no conjunto de dados.

Treinamento e otimização

Um fator essencial no treinamento é considerar como as amostras de cada classe carregam informações distintas, o que implica que o número de instâncias de cada classe não precisa ser igual. Pesquisas recentes, como a análise feita por Pezzicoli, revelam que “a falta de informações balanceadas pode gerar questões na detecção de anomalias”, reforçando a ideia de que um viés estratégico em favor de uma classe pode ser necessário.

A falta de informações balanceadas pode gerar questões na detecção de anomalias.
(“The lack of balanced information can lead to issues in anomaly detection.”)

— F.S. Pezzicoli, Pesquisador, AISTATS

Este entendimento abre espaço para novas técnicas de reequilíbrio que considerem as especificidades das classes envolvidas. A prática de ajustar as proporções de classes como um hiperparâmetro antes do treinamento é uma tendência crescente, incentivando a exploração de várias configurações.

Resultados e métricas

A identificação da proporção ideal de classes, além de essencial, é um campo em desenvolvimento. As métricas de desempenho em classificação dependem fortemente da configuração dos dados. A abordagem de partir de um equilíbrio 60/40 pode resultar em modelos mais robustos, que são menos afetados por outliers e ruídos. Essa descoberta sugere que, ao invés de se fixar no clássico 50/50, os praticantes de deep learning devem adaptar suas estratégias de acordo com a natureza dos dados.

A aplicação prática destas descobertas se amplia em projetos reais, onde refinar o equilíbrio de classe pode resultar em melhorias significativas na performance do treinamento. Esse foco pode levar a descobertas inovadoras e soluções mais eficientes em diferentes domínios, como na detecção de fraudes e em análise de risco.

Fonte: (Towards Data Science – AI, ML & Deep Learning)

- Publicidade -
- Publicidade -

Tiago F Santiago

Tiago F. Santiago é Analista de Marketing na C2HSolutions, onde, em sua atuação fixa, combina estratégia e tecnologia para impulsionar soluções digitais. Paralelamente, dedica-se como hobby à InkDesign News, contribuindo com a criação de notícias e conteúdos jornalísticos. Apaixonado por programação, ele projeta aplicações web e desenvolve sites sob medida, apoiando-se em sua sólida expertise em infraestrutura de nuvem — dominando Amazon Web Services, Microsoft Azure e Google Cloud — para garantir que cada projeto seja escalável, seguro e de alta performance. Sua versatilidade e experiência técnica permitem-lhe transformar ideias em produtos digitais inovadores.

Artigos relacionados

0 0 votos
Classificação do artigo
Inscrever-se
Notificar de
guest

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.

0 Comentários
Mais votado
mais recentes mais antigos
Feedbacks embutidos
Ver todos os comentários
- Publicidade -
Botão Voltar ao topo
0
Adoraria saber sua opinião, comente.x
Fechar

Adblock detectado

Olá! Percebemos que você está usando um bloqueador de anúncios. Para manter nosso conteúdo gratuito e de qualidade, contamos com a receita de publicidade.
Por favor, adicione o InkDesign News à lista de permissões do seu adblocker e recarregue a página.
Obrigado pelo seu apoio!