
São Paulo — InkDesign News — A integração de machine learning com ferramentas cotidianas ganha destaque com o uso de agentes de IA para documentar automaticamente arquivos Excel, elevando a organização e reprodutibilidade em equipes de dados.
Arquitetura de modelo
O processo utiliza um agente de IA, criado com a biblioteca Agno e o modelo Gemini 2.0 Flash da Google, que recebe arquivos Excel convertidos em CSV para identificar e descrever colunas do dataset. O modelo classifica o tipo de dado e gera um dicionário de dados contendo nomes, tipos e descrições das colunas em formato JSON. Isso é possível via prompt detalhado que orienta o agente a analisar e emitir documentação estruturada, mesmo em cenários com dados de nomes e tipos variados.
“Você é um agente que lê o dataset temp.csv apresentado a você e, com base no nome e tipo de dado de cada coluna, determina: – Os tipos de dado de cada coluna – A descrição de cada coluna – A primeira coluna numérica é 0”
(“You are an agent that reads the temp.csv dataset presented to you and based on the name and data type of each column header, determine the following information: – The data types of each column – The description of each column – The first column numer is 0”)— Descrição do prompt, Agno Agent
Treinamento e otimização
O arquivo Excel é previamente convertido para CSV, contendo apenas as primeiras 10 linhas, o que reduz a carga computacional e o custo dos tokens no modelo de linguagem (LLM). A arquitetura do sistema permite duas tentativas (retries) para garantir sucesso na geração da documentação automática. A interação com o usuário é realizada via Streamlit, que oferece um painel para inserção da chave API do Google e upload dos arquivos, além de acompanhar o progresso da geração do arquivo final.
“Esta função converte o arquivo Excel em CSV para enviar ao modelo, pois formatos texto-baseados são processados com maior eficiência pelos modelos de linguagem.”
(“This function will: – Take the Excel file and read only the first 10 rows. This is enough for us to send to the LLM. Doing that, we are also preventing sending too many tokens as input and making this agent too expensive.”)— Documentação da função convert_to_csv
Resultados e métricas
Após a geração do dicionário de dados, a documentação é inserida diretamente no cabeçalho do arquivo Excel como comentários em cada célula da primeira linha, garantindo acessibilidade intuitiva e compatibilidade com o formato. A solução também permite a visualização em tempo real do dicionário gerado na interface, promovendo transparência. Embora o artigo não apresente métricas quantitativas detalhadas, ressalta a economia de tempo e a melhora na aplicação de boas práticas para manipulação de arquivos.
“Os arquivos Excel são compatíveis com tudo, facilmente compartilháveis, e amigáveis para iniciantes, por isso não acredito que irão desaparecer tão cedo, mesmo com o avanço da IA.”
(“Excel files are compatible with everything, easily shareable, and beginner-friendly. I don’t think that Excel files are going away anytime soon, even with the fast development of AI.”)— Autor, Projeto Data Docs
Este avanço possibilita que equipes de dados amplifiquem a qualidade e documentação de seus arquivos Excel, tradicionalmente pouco documentados, agilizando análises e garantindo maior confiabilidade. O próximo passo em pesquisas pode explorar maior automação híbrida entre agentes e sistemas de BI, além de refinamento dos prompts para entendimento semântico mais profundo.
Veja mais sobre machine learning e deep learning em projetos aplicados.
Fonte: (Towards Data Science – AI, ML & Deep Learning)