Databricks lança framework ETL open-source para AI 90% mais rápido

- Publicidade -

Tiago F Santiago 11/06/2025Última Atualização 11/06/2025

0 74 2 minutos de leitura

Databricks lança framework ETL open-source para AI 90% mais rápido — Databricks open-sources declarative ETL framework powering 90% faster pipeline builds

- Publicidade -

São Paulo — InkDesign News — A Databricks lançou um novo framework de pipelines declarativos para processamento de dados, agora sob licença open-source, que promete simplificar a criação e manutenção de pipelines para aplicações de inteligência artificial e machine learning.

Tecnologia e abordagem

O Apache Spark Declarative Pipelines permite que engenheiros de dados definam o que seus pipelines devem realizar, utilizando SQL ou Python, enquanto o Apache Spark cuida da execução. Esse modelo se concentra na diminuição da complexidade e no gerenciamento automático de tarefas, como criação de tabelas e gerenciamento de dependências.

“Você declara uma série de conjuntos de dados e fluxos de dados, e o Apache Spark determina o plano de execução correto.”
(“You declare a series of datasets and data flows, and Apache Spark figures out the right execution plan.”)

— Michael Armbrust, Engenheiro de Software Distinto, Databricks

O framework abrange dados em lote, streaming e semi-estruturados, integrando-se facilmente a fontes como Amazon S3 e Google Cloud Storage. A validação antes da execução garante que os problemas sejam identificados precocemente, otimizando o processo.

Aplicação e desempenho

Empresas em diversos setores já utilizaram essa tecnologia, como a Block, que reduziu o tempo de desenvolvimento em mais de 90%, e a Navy Federal Credit Union, que conseguiu diminuir o tempo de manutenção de pipelines em 99%. A arquitetura é baseada no Spark Structured Streaming, permitindo que as equipes ajustem os pipelines para latências específicas.

“Como gerente de engenharia, adoro o fato de que meus engenheiros podem focar no que mais importa para o negócio.”
(“As an engineering manager, I love the fact that my engineers can focus on what matters most to the business.”)

— Jian Zhou, Gerente de Engenharia Sênior, Navy Federal Credit Union

Com essas métricas, o framework se destaca em eficiência operacional, permitindo que as equipes desenvolvam soluções mais rapidamente e com menos manutenção.

Impacto e mercado

Ao open-sourçar sua tecnologia, a Databricks se posiciona como uma alternativa competitiva ao Snowflake e outros serviços proprietários. O Openflow da Snowflake, embora focado na integração de dados, requer que os usuários limpem, transformem e agreguem dados após a ingestão. Em contraste, o framework da Databricks abrange a jornada completa dos dados, da fonte até sua utilização.

“O Spark Declarative Pipelines é projetado para capacitar os usuários a criar pipelines de dados de ponta a ponta — focando na simplificação da transformação de dados e nas operações complexas subjacentes.”
(“Spark Declarative Pipelines is built to empower users to spin up end-to-end data pipelines — focusing on the simplification of data transformation and the complex pipeline operations that underpin those transformations.”)

— Michael Armbrust, Engenheiro de Software Distinto, Databricks

O framework será integrado ao código-fonte do Apache Spark na versão 4.1. A liberação dessa tecnologia open-source proporciona acesso a um maior número de equipes e fortalece o ecossistema de dados na nuvem.

A próxima etapa para a Databricks inclui aprimorar ainda mais essa tecnologia e integrar funcionalidades adicionais, consolidando seu papel em um mercado competitivo e em rápida evolução.

Fonte: (VentureBeat – AI)

[ad_1] [ad_2]

- Publicidade -

Etiquetas