
São Paulo — InkDesign News — Um novo projeto está explorando as interseções entre a ciência de dados e a estatística utilizando algoritmos de aprendizado profundo (deep learning) e aprendizado de máquina (machine learning). A iniciativa visa criar uma ferramenta que facilite a escolha do teste estatístico adequado com base nas perguntas dos usuários.
Arquitetura de modelo
O projeto utiliza o LangGraph, uma biblioteca que permite a construção de aplicações complexas com modelos de linguagem. Ele organiza as funções em uma estrutura de grafo, permitindo que o agente tome decisões dinâmicas. Cada nó representa uma função que processa informações, facilitando consultas em documentos de estatística, como a biblioteca Scipy
. Segundo um dos desenvolvedores, “Escolher o teste estatístico correto pode ser confuso” (“Choosing the right statistical test can be confusing”)— Gustavo Santos, Desenvolvedor, InkDesign.
Treinamento e otimização
A solução conta com um banco de dados vetorial, ChromaDB, para buscar informações relevantes de forma otimizada. O fluxo de dados é gerenciado por um sistema de nós que interage com a API da OpenAI, onde a função classify_intent
determina se a pergunta do usuário requer uma busca nos documentos da biblioteca ou se pode ser respondida diretamente. Adaptar a resposta com amostras de código em Python é outra funcionalidade que otimiza a experiência do usuário.
Resultados e métricas
Ao solicitar informações sobre como comparar as médias de dois grupos, o sistema gera respostas precisas com notas sobre os testes estatísticos apropriados. As respostas incluem decisões baseadas em “t-testes” adequados, dependendo da normalidade dos dados. A implementação já demonstrou versatilidade ao responder perguntas complexas sobre testes estatísticos, evitando confusões comuns no processo tradicional de escolha de testes. O conselheiro estatístico, por exemplo, extrai informações da documentação em tempo real, otimizando o aprendizado do usuário.
O projeto abre caminhos para futuras aplicações em educação e análise de dados, prometendo um assistente estatístico cada vez mais aprimorado. Propostas de personalização e novos modelos de interação poderão ser incorporados para avançar na pesquisa em estatística e ciência de dados.
Fonte: (Towards Data Science – AI, ML & Deep Learning)