Google apresenta ferramenta LangExtract para machine learning

São Paulo — InkDesign News — O Google lançou recentemente uma nova biblioteca Python chamada LangExtract, que utiliza técnicas de machine learning para extrair informações específicas de grandes volumes de texto. A ferramenta promete facilitar a extração de dados, permitindo análises mais precisas.
Arquitetura de modelo
A biblioteca LangExtract é uma solução open-source projetada para extrair entidades textuais e suas informações associadas de maneira programática. Um dos principais recursos do LangExtract é o text anchoring, que liga cada entidade extraída a sua posição exata no texto original, permitindo uma verificação visual e rastreabilidade completa.
“extrair programaticamente as informações exatas que você precisa, enquanto garante que as saídas sejam estruturadas e confiáveis”
(“programmatically extract the exact information you need, while ensuring the outputs are structured and reliably tied back to its source”)— Google, Líder em Tecnologia
Treinamento e otimização
O LangExtract otimiza o gerenciamento de documentos extensos através de abordagens como chunking, processamento paralelo e extração em múltiplas passes, mantendo a alta taxa de recall mesmo em contextos complexos. Essa capacidade é especialmente útil para tarefas que exigem a identificação de informações específicas em textos de grandes dimensões.
Os desenvolvedores podem configurar facilmente as tarefas de extração de acordo com diferentes domínios, utilizando exemplos personalizados para guiar o modelo. Assim, a flexibilidade do sistema permite que ele se adapte a diversas necessidades analíticas.
Resultados e métricas
Em testes com documentos extensos, a ferramenta apresentou resultados promissores: uma única execução de extração conseguiu identificar entidades em textos que ultrapassavam 156 mil caracteres. A unidade de tempo de processamento foi de aproximadamente 1.239 caracteres por segundo.
“Extraímos 1 entidade de 156.918 caracteres em 43 segundos”
(“Extracted 1 entities from 156,918 characters”)— Desenvolvedor, Google
Além disso, a biblioteca oferece visualizações interativas das extrações, permitindo uma revisão intuitiva das entidades em seu contexto original. Isso facilita a análise dos dados extraídos e potencializa a confiança nos resultados.
Com o LangExtract, a possibilidade de integrar modelos de aprendizado de máquina, como o Gemini, torna-se uma realidade. O modelo é compatível com modelos de LLM tanto de nuvem quanto de código aberto, proporcionando uma escolha adaptada ao fluxo de trabalho de cada desenvolvedor.
As aplicações práticas do LangExtract podem incluir análises de grandes volumes de dados textuais, informações contábeis, extração de detalhes de pesquisa acadêmica, entre outros. À medida que o sistema evolui, futuras atualizações prometem ampliar ainda mais suas funcionalidades e eficácia.
Fonte: (Towards Data Science – AI, ML & Deep Learning)