
São Paulo — InkDesign News —
A abordagem DeepType une machine learning supervisionado com técnicas de clustering para revelar estruturas significativas em dados complexos, ampliando a utilidade das redes neurais profundas em tarefas de agrupamento que não possuem rótulos explícitos.
Arquitetura de modelo
O método DeepType parte do princípio de que as representações intermediárias aprendidas por redes neurais profundas carregam informações relevantes para a tarefa supervisionada realizada. Assim, essas representações, especialmente aquelas extraídas da penúltima camada da rede, oferecem um espaço dimensional reduzido e rico em informação para realizar clustering, como o KMeans, de forma mais relevante que diretamente sobre os dados brutos.
O modelo apresentado exemplifica uma rede neural composta por camadas lineares intercaladas com funções de ativação ReLU, culminando numa camada de saída que utiliza a representação condensada dos dados para a predição. Esta arquitetura é flexível, desde que implemente as funções necessárias para extrair representações internas e pesos da camada inicial de entrada.
“Assim, nosso vetor intermediário encapsula informações importantes sobre os dados, tornando o agrupamento neste espaço mais significativo do que em dados brutos.”
(“Thus, this intermediate vector encapsulates important information about the data, making clustering in this space more meaningful than raw data clustering.”)— Autor Desconhecido, Pesquisa DeepType
Treinamento e otimização
O treinamento do DeepType ocorre em etapas iterativas, iniciando com a otimização do modelo usando a função de perda primária supervisionada (como CrossEntropyLoss) combinada com uma perda de esparsidade que penaliza pesos elevados na primeira camada, promovendo a seleção de características relevantes.
Em seguida, realiza-se o clustering no espaço das representações geradas para estimar centros de cluster. Estes centros são incorporados em uma nova função de perda que inclui uma penalidade para aproximar as representações dos dados aos seus respectivos centros de cluster, garantindo agrupamentos compactos e semanticamente coerentes. O processo é repetido até convergência.
“Incentivamos que as representações de pontos no mesmo cluster fiquem próximas, adicionando uma penalidade à função de perda baseada na distância ao centro do cluster.”
(“We encourage representations of points in the same cluster to be close together by adding a penalty to the loss function based on distance to the cluster center.”)— Autor Desconhecido, Pesquisa DeepType
Resultados e métricas
Testes com datasets sintéticos contendo clusters bem definidos e características informativas demonstraram que o DeepType recupera adequadamente os agrupamentos e identifica as principais características usadas pelo modelo, com pesos significativos nas primeiras camadas correspondendo às entradas críticas naturais do problema.
Visualizações de componentes principais (PCA) evidenciam que os clusters formados no espaço de representações são robustos e compactos, com boa correspondência aos grupos naturais gerados pelo conjunto original. A técnica também oferece um mecanismo para classificar a importância das variáveis de entrada com base na magnitude dos pesos, auxiliando análises interpretativas.
“Obtemos os cinco principais recursos com maior importância conforme esperado, validando a identificação de características relevantes pelo modelo.”
(“We obtained the top five features by importance as expected, validating the relevant feature identification by the model.”)— Autor Desconhecido, Pesquisa DeepType
Do ponto de vista prático, o DeepType pode ser aplicado em contextos biomédicos para agrupamentos que refletem relações biológicas importantes, como subtipos de câncer, além de outras áreas onde padrões de dados complexos requerem uma combinação de supervisão e descoberta sem rótulos. O desenvolvimento open-source do DeepType permite exploração e adaptação para diversos domínios, tornando-o uma ferramenta promissora em deep learning para clustering.
Fonte: (Towards Data Science – AI, ML & Deep Learning)