
São Paulo — InkDesign News — O uso de algoritmos de machine learning e deep learning está em ascensão, especialmente no tratamento de variáveis categóricas. Este artigo explora como árvores de decisão (DTs) oferecem soluções eficazes sem exigir transformações numéricas.
Arquitetura de modelo
As árvores de decisão são conhecidas por sua versatilidade na manipulação de dados categóricos. Elas utilizam critérios como a impureza de Gini para definir os melhores pontos de divisão entre os dados. As árvores se baseiam em um processo recursivo, onde cada iteração avalia todas as características disponíveis, proporcionando um modelo interpretável e eficaz em diversas aplicações.
“As árvores de decisão podem lidar nativamente com dados categóricos, mas essa capacidade acarreta um custo computacional quando o número de categorias aumenta.”
(“Decision trees can natively handle categorical data, but this ability comes at a computational cost when category counts grow.”)— Autor, Pesquisador, Instituição
Treinamento e otimização
Um dos desafios enfrentados no treinamento de DTs surge da alta cardinalidade de variáveis categóricas. Para cada variável com cardinalidade k, o número total de combinações possíveis de divisões chega a 2k. Isso pode desencadear um aumento exponencial no tempo de treinamento. O uso de mean target encoding (MTE) emerge como uma solução eficiente, reduzindo o espaço de busca para uma ordenação de (k-1) divisões viáveis.
“O mean target encoding possibilita reduzir o espaço de busca sem perder a divisão ótima.”
(“Mean target encoding enables this reduction without compromising the optimal split.”)— Autor, Pesquisador, Instituição
Resultados e métricas
A aplicação da MTE foi testada em experimentos que demonstraram ganhos significativos de eficiência. As métricas de tempo mostraram que a abordagem MTE é três ordens de magnitude mais rápida em comparação com a avaliação exaustiva. Em dados com 12 categorias, o método tradicional levou aproximadamente um segundo, enquanto a implementação MTE garantiu o mesmo resultado ideal quase imediatamente.
“Os tempos necessários para avaliar divisões aumentam exponencialmente à medida que o número de categorias cresce.”
(“The time required to evaluate splits grows exponentially with the number of categories.”)— Autor, Pesquisador, Instituição
As aplicações práticas do MTE são vastas, oferecendo uma alternativa viável para melhorar a eficiência em tarefas que envolvem variáveis categóricas. A combinação de técnicas de machine learning com abordagens inovadoras como a MTE promete impulsionar o desempenho e a precisão em modelos preditivos.
Fonte: (Towards Data Science – AI, ML & Deep Learning)