
São Paulo — InkDesign News —
A busca pela eficiência em machine learning continua a desafiar as convenções, especialmente em relação ao reequilíbrio de dados para evitar vieses de classe. Um novo estudo questiona se a reordenação ideal de 50/50 é de fato a melhor abordagem.
Arquitetura de modelo
A questão do equilíbrio de classes em modelos de classificação binária vem ganhando destaque em pesquisas recentes. Como observado em estudos, a abordagem tradicional de ajustar os dados para um equilíbrio 50/50 pode não ser a mais eficaz. O pesquisador F. Kamalov e colaboradores demonstraram que a imprecisão da prática popular pode levar a resultados subótimos. Segundo os autores, “a opção de ter uma leve predominância do classificador maior pode ser benéfica”, destacando que um desequilíbrio de 43% é mais comum em diversas aplicações.
A opção de ter uma leve predominância do classificador maior pode ser benéfica.
(“The option to have a slight predominance of the majority classifier may be beneficial.”)— F. Kamalov, Pesquisador, Universidade de Tecnologia
A estrutura dos dados muitas vezes determina como um modelo aprende e se ajusta. A flexibilidade em ajustar a proporção de classes é fundamental, pois cada aplicação pode responder de maneira diferente a alterações no conjunto de dados.
Treinamento e otimização
Um fator essencial no treinamento é considerar como as amostras de cada classe carregam informações distintas, o que implica que o número de instâncias de cada classe não precisa ser igual. Pesquisas recentes, como a análise feita por Pezzicoli, revelam que “a falta de informações balanceadas pode gerar questões na detecção de anomalias”, reforçando a ideia de que um viés estratégico em favor de uma classe pode ser necessário.
A falta de informações balanceadas pode gerar questões na detecção de anomalias.
(“The lack of balanced information can lead to issues in anomaly detection.”)— F.S. Pezzicoli, Pesquisador, AISTATS
Este entendimento abre espaço para novas técnicas de reequilíbrio que considerem as especificidades das classes envolvidas. A prática de ajustar as proporções de classes como um hiperparâmetro antes do treinamento é uma tendência crescente, incentivando a exploração de várias configurações.
Resultados e métricas
A identificação da proporção ideal de classes, além de essencial, é um campo em desenvolvimento. As métricas de desempenho em classificação dependem fortemente da configuração dos dados. A abordagem de partir de um equilíbrio 60/40 pode resultar em modelos mais robustos, que são menos afetados por outliers e ruídos. Essa descoberta sugere que, ao invés de se fixar no clássico 50/50, os praticantes de deep learning devem adaptar suas estratégias de acordo com a natureza dos dados.
A aplicação prática destas descobertas se amplia em projetos reais, onde refinar o equilíbrio de classe pode resultar em melhorias significativas na performance do treinamento. Esse foco pode levar a descobertas inovadoras e soluções mais eficientes em diferentes domínios, como na detecção de fraudes e em análise de risco.
Fonte: (Towards Data Science – AI, ML & Deep Learning)