AutomatisierungNachrichten

Apache Spark Deklarative Pipelines: Vereinfachung von Daten-Workflows mit SQL und Python

Eine neue Ära für Data Engineering: Deklarative Pipelines landen in Apache Spark

Jahrelang waren Dateningenieure darauf angewiesen, jeden Schritt ihrer ETL-Pipelines (Extrahieren, Transformieren, Laden) in mühsamer Kleinarbeit zu schreiben. Man denke nur an die vielen benutzerdefinierten Codes, um mit Abhängigkeiten zu jonglieren, Änderungen in Datenquellen zu bewältigen und die rechtzeitige Bereitstellung von Erkenntnissen zu gewährleisten. Aber jetzt dreht Apache Spark das Drehbuch mit der Einführung von deklarativen Pipelines um.

Die Prämisse ist erfrischend einfach: Anstatt das “Wie” zu entwickeln - jede Schleife, jede Abhängigkeit - können Ingenieure einfach deklarieren was die die Pipeline ausführen soll. Die Spark-Engine kümmert sich um die Interpretation dieser Anweisungen und die Ermittlung des optimalen Ausführungsplans unter der Haube. Unabhängig davon, ob Sie Python oder SQL verwenden, bedeutet dies, dass Sie weniger Zeit mit der Orchestrierung verbringen und sich mehr auf die Daten und Ergebnisse konzentrieren können, die wichtig sind.

Die Auswirkungen auf die Entwicklungsgeschwindigkeit sind dramatisch. Nach Angaben von Databricks - den ursprünglichen Entwicklern von Spark - kann dieser Ansatz die Pipeline-Erstellungszeiten um bis zu 90% verkürzen. Dabei geht es nicht nur darum, schneller zur Produktion zu gelangen. Deklarative Komponenten sind modular und wiederverwendbar, was die Einhaltung von Qualitätsstandards, die Handhabung von Schemaänderungen bei der Entwicklung von Quellen und die Gewährleistung eines reibungslosen Ablaufs erleichtert. Weniger manuelles Patchwork bedeutet einen zuverlässigeren, zukunftssicheren Datenstapel.

Und das ist noch nicht alles: Dieses neue Framework ist nicht hinter den Paywalls der Unternehmen eingeschlossen. Databricks stellt diese Funktionen der Open-Source-Community zur Verfügung. Dieser Schritt erweitert nicht nur den Kreis derer, die deklaratives ETL nutzen und damit experimentieren können, sondern ebnet auch den Weg für eine engere Zusammenarbeit und Innovation zwischen Unternehmen und Teams auf der ganzen Welt. Keine Anbieterbindung mehr.

Für moderne Datenteams versprechen diese Fortschritte mehr als nur schnellere Pipelines. Sie bedeuten weniger technische Schulden, vereinheitlichte Batch- und Streaming-Workflows und robuste Sicherheitsvorkehrungen gegen Brüche, wenn sich Datenlandschaften verändern. Durch die Erhöhung der Abstraktionsebene tragen die deklarativen Pipelines von Apache Spark dazu bei, die Datentechnik für mehr Menschen zugänglich zu machen, Wartungsprobleme zu reduzieren und letztendlich Unternehmen in die Lage zu versetzen, sich mit Vertrauen anzupassen und zu skalieren.

Wenn Sie tiefer eintauchen möchten, lesen Sie den Artikel von VentureBeat hier: Databricks Open Source deklaratives ETL-Framework ermöglicht 90% schnellere Pipeline-Builds.

Wie ist Ihre Reaktion?

Aufgeregt
0
Glücklich
0
Verliebt
0
Nicht sicher
0
Dummerchen
0

Kommentare sind geschlossen.