BERTopic aplica modelagem de tópicos com transformers em machine learning

São Paulo — InkDesign News —
BERTopic surge como uma solução eficiente em machine learning para modelagem de tópicos com base em transformadores, permitindo a análise rápida e precisa de grandes volumes de texto, como notícias financeiras. A técnica combina transformação de texto em embeddings, redução de dimensionalidade e clustering para revelar temas emergentes.
Arquitetura de modelo
A arquitetura do BERTopic contempla seis módulos principais: Embeddings, Redução de Dimensionalidade, Clustering, Vetorizadores, c-TF-IDF e Modelo de Representação. Primeiramente, os textos são convertidos em representações vetoriais densas por meio de modelos sentence-transformer como o “all-MiniLM-L6-v2” e “BAAI/bge-base-en-v1.5”, capturando o significado semântico.
Uma etapa fundamental é a redução da dimensionalidade, geralmente realizada com UMAP, que mantém a estrutura global e local dos dados ao projetar os embeddings em espaços de menor dimensão. Experimentos variam parâmetros como n_neighbors e min_dist, impactando diretamente a formação dos clusters subsequentes.
“O parâmetro n_neighbors do UMAP equilibra a estrutura local e global nos dados, enquanto min_dist controla a proximidade mínima entre os pontos na representação reduzida.”
(“UMAP’s n_neighbors parameter balances local and global structure in the data, while min_dist controls the minimum distance between points in the reduced representation.”)— Autor do estudo, Pesquisador de NLP
Treinamento e otimização
Para o agrupamento, o BERTopic oferece flexibilidade entre algoritmos como HDBSCAN e K-Means. O HDBSCAN identifica clusters de densidades variadas, sendo ajustado pelos parâmetros min_cluster_size e min_samples, essenciais para evitar ruídos ou mistura excessiva de clusters.
Já o K-Means permite controle granular do número de tópicos pelo parâmetro n_clusters. Em testes com notícias financeiras sobre a Apple, foi possível comparar ambos métodos e ajustar hiperparâmetros para alcançar clusters temáticos coerentes.
“Min_cluster_size determina o tamanho mínimo dos clusters, impactando a estabilidade das formações; min_samples define a rigidez da formação de clusters, classificando pontos pouco densos como ruído.”
(“Min_cluster_size determines the minimum cluster size, impacting the stability of the formations; min_samples defines the strictness of cluster formation, classifying sparse points as noise.”)— Autor do estudo, Cientista de Dados
Resultados e métricas
Complementando a modelagem, vetorizadores como o CountVectorizer ajustam as representações por frequências de termos, filtrando palavras comuns e irrelevantes com parâmetros como max_df e remoção de stop_words. O método c-TF-IDF atua no nível de clusters para ajustar a importância dos termos, ainda que resultados indicam que sua vantagem diminui quando combinada com o CountVectorizer, especialmente em textos financeiros.
O aprimoramento significativo ocorre com o uso do modelo de representação KeyBERTInspired, que seleciona palavras-chave com base em similaridade semântica, promovendo maior coerência e reduzindo a redundância de termos sinônimos.
“KeyBERTInspired se mostrou uma abordagem custo-efetiva para refinar palavras-chave e melhorar a coerência dos temas extraídos.”
(“KeyBERTInspired proved to be a cost-effective approach to refine keywords and enhance the coherence of extracted topics.”)— Pesquisador principal, Laboratório de IA
Os resultados evidenciam que a combinação dos módulos, desde os embeddings até o modelo de representação, é decisiva para transformar dados textuais brutos em insights temáticos relevantes, com potencial para aplicação em monitoramento de notícias, análise financeira e outras áreas de machine learning.
Próximos passos em pesquisa podem explorar variações nos modelos de embeddings e integrações avançadas com técnicas de aprendizado profundo para incrementar ainda mais a qualidade e agilidade da modelagem de tópicos.
Fonte: (Towards Data Science – AI, ML & Deep Learning)