
São Paulo — InkDesign News — Um novo desenvolvimento no campo de machine learning promete melhorar a rotulagem de modelos de tópicos, utilizando inteligência artificial para automatizar processos antes considerados demasiadamente subjetivos e dependentes da experiência do rotulador humano.
Arquitetura de modelo
O modelo Fastopic, desenvolvido por Xiaobao Wu et al., se destaca no cenário atual por sua eficiência e adaptabilidade. Ele foi apresentado na conferência NeurIPS 2024 e promete superar abordagens anteriores como BERTopic, principalmente em métricas chave como diversidade de tópicos e aplicabilidade em inteligência empresarial.
“A rotulagem é a parte essencial do pipeline de modelagem de tópicos, pois conecta as saídas do modelo com as decisões do mundo real.”
(“Labelling is the essential part of the topic modelling pipeline because it bridges the model outputs with real-world decisions.”)— Petr Koráb, Fundador, Text Mining Stories
Treinamento e otimização
O treinamento do modelo utiliza o pacote Python Turftopic, que facilita a integração com um rotulador baseado em LLM, permitindo gerar nomes de tópicos legíveis por humanos. Durante o processo de treinamento, dados de reclamações de clientes foram utilizados, resultando na classificação em dez tópicos distintos.
“É interessante comparar os resultados do LLM com os de um insider da empresa que conhece os processos e a base de clientes.”
(“It would be interesting to compare the LLM results with those of a company insider who is familiar with the company’s processes and customer base.”)— Martin Feldkircher, Escola de Estudos Internacionais de Viena
Resultados e métricas
A rotulagem dos tópicos foi realizada com a versão mini do GPT-4. O modelo gerou uma tabela de tópicos rotulados que possibilita uma análise mais aprofundada. A visualização dos dados também foi otimizada por meio de nuvens de palavras, que exibem a frequência dos termos mais relevantes.
“Os rótulos variam ligeiramente a cada treinamento, mesmo com o estado aleatório definido.”
(“The labels are slightly different for each training, even with the random state.”)— Viktoriya Teliha, Centro de Análise Macroeconômica Aplicada, Austrália
A aplicação desses modelos de tópicos e suas rotulagens automatizadas têm um potencial significativo em áreas como atendimento ao cliente e análise de feedbacks. A integração de modelos avançados de machine learning com práticas corporativas poderá transformar a forma como as empresas entendem e utilizam dados textuais.
Fonte: (Towards Data Science – AI, ML & Deep Learning)