Databricks lança framework ETL open-source para AI 90% mais rápido

São Paulo — InkDesign News — A Databricks lançou um novo framework de pipelines declarativos para processamento de dados, agora sob licença open-source, que promete simplificar a criação e manutenção de pipelines para aplicações de inteligência artificial e machine learning.
Tecnologia e abordagem
O Apache Spark Declarative Pipelines permite que engenheiros de dados definam o que seus pipelines devem realizar, utilizando SQL ou Python, enquanto o Apache Spark cuida da execução. Esse modelo se concentra na diminuição da complexidade e no gerenciamento automático de tarefas, como criação de tabelas e gerenciamento de dependências.
“Você declara uma série de conjuntos de dados e fluxos de dados, e o Apache Spark determina o plano de execução correto.”
(“You declare a series of datasets and data flows, and Apache Spark figures out the right execution plan.”)— Michael Armbrust, Engenheiro de Software Distinto, Databricks
O framework abrange dados em lote, streaming e semi-estruturados, integrando-se facilmente a fontes como Amazon S3 e Google Cloud Storage. A validação antes da execução garante que os problemas sejam identificados precocemente, otimizando o processo.
Aplicação e desempenho
Empresas em diversos setores já utilizaram essa tecnologia, como a Block, que reduziu o tempo de desenvolvimento em mais de 90%, e a Navy Federal Credit Union, que conseguiu diminuir o tempo de manutenção de pipelines em 99%. A arquitetura é baseada no Spark Structured Streaming, permitindo que as equipes ajustem os pipelines para latências específicas.
“Como gerente de engenharia, adoro o fato de que meus engenheiros podem focar no que mais importa para o negócio.”
(“As an engineering manager, I love the fact that my engineers can focus on what matters most to the business.”)— Jian Zhou, Gerente de Engenharia Sênior, Navy Federal Credit Union
Com essas métricas, o framework se destaca em eficiência operacional, permitindo que as equipes desenvolvam soluções mais rapidamente e com menos manutenção.
Impacto e mercado
Ao open-sourçar sua tecnologia, a Databricks se posiciona como uma alternativa competitiva ao Snowflake e outros serviços proprietários. O Openflow da Snowflake, embora focado na integração de dados, requer que os usuários limpem, transformem e agreguem dados após a ingestão. Em contraste, o framework da Databricks abrange a jornada completa dos dados, da fonte até sua utilização.
“O Spark Declarative Pipelines é projetado para capacitar os usuários a criar pipelines de dados de ponta a ponta — focando na simplificação da transformação de dados e nas operações complexas subjacentes.”
(“Spark Declarative Pipelines is built to empower users to spin up end-to-end data pipelines — focusing on the simplification of data transformation and the complex pipeline operations that underpin those transformations.”)— Michael Armbrust, Engenheiro de Software Distinto, Databricks
O framework será integrado ao código-fonte do Apache Spark na versão 4.1. A liberação dessa tecnologia open-source proporciona acesso a um maior número de equipes e fortalece o ecossistema de dados na nuvem.
A próxima etapa para a Databricks inclui aprimorar ainda mais essa tecnologia e integrar funcionalidades adicionais, consolidando seu papel em um mercado competitivo e em rápida evolução.
Fonte: (VentureBeat – AI)