- Publicidade -
- Publicidade -
- Publicidade -
AI, ML & Deep Learning

Google apresenta ferramenta LangExtract para machine learning

- Publicidade -
- Publicidade -

São Paulo — InkDesign News — O Google lançou recentemente uma nova biblioteca Python chamada LangExtract, que utiliza técnicas de machine learning para extrair informações específicas de grandes volumes de texto. A ferramenta promete facilitar a extração de dados, permitindo análises mais precisas.

Arquitetura de modelo

A biblioteca LangExtract é uma solução open-source projetada para extrair entidades textuais e suas informações associadas de maneira programática. Um dos principais recursos do LangExtract é o text anchoring, que liga cada entidade extraída a sua posição exata no texto original, permitindo uma verificação visual e rastreabilidade completa.

“extrair programaticamente as informações exatas que você precisa, enquanto garante que as saídas sejam estruturadas e confiáveis”
(“programmatically extract the exact information you need, while ensuring the outputs are structured and reliably tied back to its source”)

— Google, Líder em Tecnologia

Treinamento e otimização

O LangExtract otimiza o gerenciamento de documentos extensos através de abordagens como chunking, processamento paralelo e extração em múltiplas passes, mantendo a alta taxa de recall mesmo em contextos complexos. Essa capacidade é especialmente útil para tarefas que exigem a identificação de informações específicas em textos de grandes dimensões.

Os desenvolvedores podem configurar facilmente as tarefas de extração de acordo com diferentes domínios, utilizando exemplos personalizados para guiar o modelo. Assim, a flexibilidade do sistema permite que ele se adapte a diversas necessidades analíticas.

Resultados e métricas

Em testes com documentos extensos, a ferramenta apresentou resultados promissores: uma única execução de extração conseguiu identificar entidades em textos que ultrapassavam 156 mil caracteres. A unidade de tempo de processamento foi de aproximadamente 1.239 caracteres por segundo.

“Extraímos 1 entidade de 156.918 caracteres em 43 segundos”
(“Extracted 1 entities from 156,918 characters”)

— Desenvolvedor, Google

Além disso, a biblioteca oferece visualizações interativas das extrações, permitindo uma revisão intuitiva das entidades em seu contexto original. Isso facilita a análise dos dados extraídos e potencializa a confiança nos resultados.

Com o LangExtract, a possibilidade de integrar modelos de aprendizado de máquina, como o Gemini, torna-se uma realidade. O modelo é compatível com modelos de LLM tanto de nuvem quanto de código aberto, proporcionando uma escolha adaptada ao fluxo de trabalho de cada desenvolvedor.

As aplicações práticas do LangExtract podem incluir análises de grandes volumes de dados textuais, informações contábeis, extração de detalhes de pesquisa acadêmica, entre outros. À medida que o sistema evolui, futuras atualizações prometem ampliar ainda mais suas funcionalidades e eficácia.

Fonte: (Towards Data Science – AI, ML & Deep Learning)

- Publicidade -
- Publicidade -

Tiago F Santiago

Tiago F. Santiago é Analista de Marketing na C2HSolutions, onde, em sua atuação fixa, combina estratégia e tecnologia para impulsionar soluções digitais. Paralelamente, dedica-se como hobby à InkDesign News, contribuindo com a criação de notícias e conteúdos jornalísticos. Apaixonado por programação, ele projeta aplicações web e desenvolve sites sob medida, apoiando-se em sua sólida expertise em infraestrutura de nuvem — dominando Amazon Web Services, Microsoft Azure e Google Cloud — para garantir que cada projeto seja escalável, seguro e de alta performance. Sua versatilidade e experiência técnica permitem-lhe transformar ideias em produtos digitais inovadores.

Artigos relacionados

0 0 votos
Classificação do artigo
Inscrever-se
Notificar de
guest

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.

0 Comentários
Mais votado
mais recentes mais antigos
Feedbacks embutidos
Ver todos os comentários
- Publicidade -
Botão Voltar ao topo
0
Adoraria saber sua opinião, comente.x
Fechar

Adblock detectado

Olá! Percebemos que você está usando um bloqueador de anúncios. Para manter nosso conteúdo gratuito e de qualidade, contamos com a receita de publicidade.
Por favor, adicione o InkDesign News à lista de permissões do seu adblocker e recarregue a página.
Obrigado pelo seu apoio!