BERTopic aplica modelagem de tópicos com transformers em machine learning

- Publicidade -

Tiago F Santiago 08/05/2025Última Atualização 08/05/2025

0 51 2 minutos de leitura

BERTopic aplica modelagem de tópicos com transformers em machine learning — BERTopic: Transformer-Based Topic Modeling (unless otherwise noted, all images are by the author)

- Publicidade -

São Paulo — InkDesign News —

BERTopic surge como uma solução eficiente em machine learning para modelagem de tópicos com base em transformadores, permitindo a análise rápida e precisa de grandes volumes de texto, como notícias financeiras. A técnica combina transformação de texto em embeddings, redução de dimensionalidade e clustering para revelar temas emergentes.

Arquitetura de modelo

A arquitetura do BERTopic contempla seis módulos principais: Embeddings, Redução de Dimensionalidade, Clustering, Vetorizadores, c-TF-IDF e Modelo de Representação. Primeiramente, os textos são convertidos em representações vetoriais densas por meio de modelos sentence-transformer como o “all-MiniLM-L6-v2” e “BAAI/bge-base-en-v1.5”, capturando o significado semântico.

Uma etapa fundamental é a redução da dimensionalidade, geralmente realizada com UMAP, que mantém a estrutura global e local dos dados ao projetar os embeddings em espaços de menor dimensão. Experimentos variam parâmetros como n_neighbors e min_dist, impactando diretamente a formação dos clusters subsequentes.

“O parâmetro n_neighbors do UMAP equilibra a estrutura local e global nos dados, enquanto min_dist controla a proximidade mínima entre os pontos na representação reduzida.”
(“UMAP’s n_neighbors parameter balances local and global structure in the data, while min_dist controls the minimum distance between points in the reduced representation.”)

— Autor do estudo, Pesquisador de NLP

Treinamento e otimização

Para o agrupamento, o BERTopic oferece flexibilidade entre algoritmos como HDBSCAN e K-Means. O HDBSCAN identifica clusters de densidades variadas, sendo ajustado pelos parâmetros min_cluster_size e min_samples, essenciais para evitar ruídos ou mistura excessiva de clusters.

Já o K-Means permite controle granular do número de tópicos pelo parâmetro n_clusters. Em testes com notícias financeiras sobre a Apple, foi possível comparar ambos métodos e ajustar hiperparâmetros para alcançar clusters temáticos coerentes.

“Min_cluster_size determina o tamanho mínimo dos clusters, impactando a estabilidade das formações; min_samples define a rigidez da formação de clusters, classificando pontos pouco densos como ruído.”
(“Min_cluster_size determines the minimum cluster size, impacting the stability of the formations; min_samples defines the strictness of cluster formation, classifying sparse points as noise.”)

— Autor do estudo, Cientista de Dados

Resultados e métricas

Complementando a modelagem, vetorizadores como o CountVectorizer ajustam as representações por frequências de termos, filtrando palavras comuns e irrelevantes com parâmetros como max_df e remoção de stop_words. O método c-TF-IDF atua no nível de clusters para ajustar a importância dos termos, ainda que resultados indicam que sua vantagem diminui quando combinada com o CountVectorizer, especialmente em textos financeiros.

O aprimoramento significativo ocorre com o uso do modelo de representação KeyBERTInspired, que seleciona palavras-chave com base em similaridade semântica, promovendo maior coerência e reduzindo a redundância de termos sinônimos.

“KeyBERTInspired se mostrou uma abordagem custo-efetiva para refinar palavras-chave e melhorar a coerência dos temas extraídos.”
(“KeyBERTInspired proved to be a cost-effective approach to refine keywords and enhance the coherence of extracted topics.”)

— Pesquisador principal, Laboratório de IA

Os resultados evidenciam que a combinação dos módulos, desde os embeddings até o modelo de representação, é decisiva para transformar dados textuais brutos em insights temáticos relevantes, com potencial para aplicação em monitoramento de notícias, análise financeira e outras áreas de machine learning.

Próximos passos em pesquisa podem explorar variações nos modelos de embeddings e integrações avançadas com técnicas de aprendizado profundo para incrementar ainda mais a qualidade e agilidade da modelagem de tópicos.

Fonte: (Towards Data Science – AI, ML & Deep Learning)

- Publicidade -

Etiquetas