- Publicidade -
- Publicidade -
AI, ML & Deep Learning

BERTopic aplica modelagem de tópicos com transformers em machine learning

- Publicidade -
- Publicidade -

São Paulo — InkDesign News —

BERTopic surge como uma solução eficiente em machine learning para modelagem de tópicos com base em transformadores, permitindo a análise rápida e precisa de grandes volumes de texto, como notícias financeiras. A técnica combina transformação de texto em embeddings, redução de dimensionalidade e clustering para revelar temas emergentes.

Arquitetura de modelo

A arquitetura do BERTopic contempla seis módulos principais: Embeddings, Redução de Dimensionalidade, Clustering, Vetorizadores, c-TF-IDF e Modelo de Representação. Primeiramente, os textos são convertidos em representações vetoriais densas por meio de modelos sentence-transformer como o “all-MiniLM-L6-v2” e “BAAI/bge-base-en-v1.5”, capturando o significado semântico.

Uma etapa fundamental é a redução da dimensionalidade, geralmente realizada com UMAP, que mantém a estrutura global e local dos dados ao projetar os embeddings em espaços de menor dimensão. Experimentos variam parâmetros como n_neighbors e min_dist, impactando diretamente a formação dos clusters subsequentes.

“O parâmetro n_neighbors do UMAP equilibra a estrutura local e global nos dados, enquanto min_dist controla a proximidade mínima entre os pontos na representação reduzida.”
(“UMAP’s n_neighbors parameter balances local and global structure in the data, while min_dist controls the minimum distance between points in the reduced representation.”)

— Autor do estudo, Pesquisador de NLP

Treinamento e otimização

Para o agrupamento, o BERTopic oferece flexibilidade entre algoritmos como HDBSCAN e K-Means. O HDBSCAN identifica clusters de densidades variadas, sendo ajustado pelos parâmetros min_cluster_size e min_samples, essenciais para evitar ruídos ou mistura excessiva de clusters.

Já o K-Means permite controle granular do número de tópicos pelo parâmetro n_clusters. Em testes com notícias financeiras sobre a Apple, foi possível comparar ambos métodos e ajustar hiperparâmetros para alcançar clusters temáticos coerentes.

“Min_cluster_size determina o tamanho mínimo dos clusters, impactando a estabilidade das formações; min_samples define a rigidez da formação de clusters, classificando pontos pouco densos como ruído.”
(“Min_cluster_size determines the minimum cluster size, impacting the stability of the formations; min_samples defines the strictness of cluster formation, classifying sparse points as noise.”)

— Autor do estudo, Cientista de Dados

Resultados e métricas

Complementando a modelagem, vetorizadores como o CountVectorizer ajustam as representações por frequências de termos, filtrando palavras comuns e irrelevantes com parâmetros como max_df e remoção de stop_words. O método c-TF-IDF atua no nível de clusters para ajustar a importância dos termos, ainda que resultados indicam que sua vantagem diminui quando combinada com o CountVectorizer, especialmente em textos financeiros.

O aprimoramento significativo ocorre com o uso do modelo de representação KeyBERTInspired, que seleciona palavras-chave com base em similaridade semântica, promovendo maior coerência e reduzindo a redundância de termos sinônimos.

“KeyBERTInspired se mostrou uma abordagem custo-efetiva para refinar palavras-chave e melhorar a coerência dos temas extraídos.”
(“KeyBERTInspired proved to be a cost-effective approach to refine keywords and enhance the coherence of extracted topics.”)

— Pesquisador principal, Laboratório de IA

Os resultados evidenciam que a combinação dos módulos, desde os embeddings até o modelo de representação, é decisiva para transformar dados textuais brutos em insights temáticos relevantes, com potencial para aplicação em monitoramento de notícias, análise financeira e outras áreas de machine learning.

Próximos passos em pesquisa podem explorar variações nos modelos de embeddings e integrações avançadas com técnicas de aprendizado profundo para incrementar ainda mais a qualidade e agilidade da modelagem de tópicos.

Fonte: (Towards Data Science – AI, ML & Deep Learning)

- Publicidade -
- Publicidade -

Tiago F Santiago

Tiago F. Santiago é Analista de Marketing na C2HSolutions, onde, em sua atuação fixa, combina estratégia e tecnologia para impulsionar soluções digitais. Paralelamente, dedica-se como hobby à InkDesign News, contribuindo com a criação de notícias e conteúdos jornalísticos. Apaixonado por programação, ele projeta aplicações web e desenvolve sites sob medida, apoiando-se em sua sólida expertise em infraestrutura de nuvem — dominando Amazon Web Services, Microsoft Azure e Google Cloud — para garantir que cada projeto seja escalável, seguro e de alta performance. Sua versatilidade e experiência técnica permitem-lhe transformar ideias em produtos digitais inovadores.

Artigos relacionados

0 0 votos
Classificação do artigo
Inscrever-se
Notificar de
guest

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.

0 Comentários
Mais votado
mais recentes mais antigos
Feedbacks embutidos
Ver todos os comentários
- Publicidade -
Botão Voltar ao topo
0
Adoraria saber sua opinião, comente.x
Fechar

Adblock detectado

Olá! Percebemos que você está usando um bloqueador de anúncios. Para manter nosso conteúdo gratuito e de qualidade, contamos com a receita de publicidade.
Por favor, adicione o InkDesign News à lista de permissões do seu adblocker e recarregue a página.
Obrigado pelo seu apoio!