Data Mesh: Wie Sie für Ihr Data Mesh eine gute Plattform finden

Die Anforderungen an eine Self-Service-Plattform sind vor allem Nutzer:innfreundlichkeit und ein gemeinsames Set an Tools, die bereichsübergreifend effizient eingesetzt werden können. Wichtig ist, dass in einem guten Setup für Data Mesh keine Nischenlösungen zum Einsatz kommen können – denn die von Zhamak Dehghani definierten DATSIS-Prinzipien für Datenqualität, die im vorigen Artikel beschrieben wurden, erfordern bereits einen hohen Aufwand seitens der Fachbereiche und des zentralen Datenteams. Zusätzliche Belastungen durch Wartung und Pflege von Einzellösungen sind daher nicht empfehlenswert.

Der „Data as Product“-Ansatz stellt alle Tools für zentrale Governance und Datensicherheit bereit und macht Produkt-Pipelines möglich.


Foto: NicoElNino – shutterstock.com

 
Serie Data Mesh

Erfahren Sie in dieser vierteiligen Themenreihe, wie das neue Konzept „Data Mesh“ funktioniert und welche Datenprobleme es löst. Per Klick können Sie direkt zu einem Beitrag zu springen. Verfasst wurde die Serie von Snowflake, einem Cloud-basierten Software-as-a-Service-Unternehmen aus den USA.

Teil 1: Data Ownership: Die Trennung von Datenbesitz und Dezentralisierung

Teil 2: Data Product: Umdenken beim Thema Daten, Wandel in Mindset und Unternehmenskultur

Teil 3: Erfolgreiche Transformation: Schlüsselprinzipien einer erfolgreichen Data-Mesh-Strategie, DATSIS und nötige Transformation

Teil 4: Umsetzung: Wie eine gute Data-Mesh-Plattform aussieht und Sie Ihre Infrastruktur darauf ausrichten können.

Die Data Cloud von Snowflake bietet eine wunderbare Grundlage für Fachbereiche, um eine dezentrale Data-Mesh-Architektur einzurichten und zu verwalten. So können lokale Teams nicht nur ihre Daten als Produkte miteinander teilen, sondern auch Daten mit derselben Logik verarbeiten und wie Produkte behandeln.

Wenn es um Tools und Ressourcen geht, die unbedingt notwendig sind, um die Dezentralisierung erfolgreich zu gestalten, sollten Unternehmen den Produktlebenszyklus eines Datenprodukts vor Augen haben: Fachbereiche sollten Zugriff auf Tools erhalten, die in jeder Phase des Zyklus dabei helfen, Datenprodukte zu erstellen, auszuliefern und zu nutzen – vom Zugriff auf die richtigen Daten über die Verarbeitung und Aufbereitung bis hin zur Analyse, Erstellung von Modellen und Bereitstellung von Datenprodukten für Nutzer:innen über das gesamte Unternehmen hinweg.

Eine leistungsstarke Plattform für die Self-Service-Infrastruktur sollte eine elastische Performance bieten, damit Fachbereiche unterschiedliche Anwendungszwecke zeitgleich abrufen können – auch dann, wenn diese rechenintensiv sind. Dazu zählen etwa umfassende Datenpipelines, Ad-hoc-Exploration, BI-Berichterstattung, Feature Engineering und interaktive Anwendungen. Mit einer derart leistungsfähigen Plattform lässt sich die Architektur im Unternehmen vereinfachen, ohne an Geschwindigkeit oder Flexibilität zu verlieren. Unabhängig davon, ob die Teams mit SQL, Code (z. B. Java, Scala oder Python) oder einer Mischung davon arbeiten, die Self-Service-Plattform sollte alle gleichermaßen unterstützen.

Angesichts der explosionsartigen Zunahme der Vielfalt und Größe von Daten muss eine Plattform in der Lage sein, große Datenmengen in unterschiedlichen Formaten aufzunehmen. Die Daten müssen aus verschiedenen Quellen stammen können und von unterschiedlichen Nutzer:innen als Produkte abgerufen werden können. Die Plattform sollte zudem so flexibel sein, dass bestimmte Daten zugleich genutzt und bereitgestellt werden können. Diese Flexibilität oder Offenheit, die einer Plattform die Interaktion mit dem restlichen Ökosystem des Unternehmens ermöglicht, muss nicht zwingend Open Source sein.

Mit den oben genannten Eigenschaften einer Plattform sind die Fachbereiche in der Lage, eine Product Pipeline zu etablieren, mit der sie Datenprodukte aufnehmen und verarbeiten sowie ausliefern können. Bevor es an die Datenprodukte selbst geht, ist jedoch der Zugang zu Daten essenziell. Die Data Cloud von Snowflake sorgt daher dafür, dass alle Fachbereiche und zentralen Datenteams jederzeit Zugriff auf alle relevanten Daten erhalten, ohne dass diese in Silos oder komplexen Strukturen gefangen bleiben.

Um dies zu erreichen, setzt die Data Cloud auf der Snowflake Platform auf, die durch ihre Cloud-Kapazität für skalierbare Leistung, Benutzer:innenfreundlichkeit, geregelten Datenaustausch und Collaboration steht. Die Plattform ist bestens geeignet, um sowohl die zentralisierten Standards als auch dezentrale Data Ownership zu unterstützen – beides ist für einen erfolgreichen Einsatz des Data Mesh unabdingbar.

Die Implementierung eines Data Mesh in Snowflake kann auf verschiedenen Topologien basieren: Fachbereiche oder Domänen können auf Accounts basieren und die Funktionen für die sichere gemeinsame Nutzung von Daten nutzen, um Silos aufzubrechen, über Regionen und Clouds hinweg mit einer einzigen Kopie der Daten zu arbeiten. Fachbereiche oder Domänen können alternativ auch auf Datenbanken oder Schemata basieren und externe Kataloge wie beispielsweise von Collibra nutzen, um Produkte auffindbar und zugänglich zu machen.

In jedem Fall kann Snowflake den Fachbereichen unabhängige Ressourcen bereitstellen, um ihre Datenprodukte zu laden, zu verarbeiten und mit Virtual Warehouses in einem Katalog von Drittanbieter:innen zu listen. Diese Produkte lassen sich dann via Data Sharing innerhalb des Accounts oder der Datenbank teilen und nutzen.

Werden nicht die richtigen Tools und die richtige Infrastruktur gewählt, können die Vorteile eines Data Mesh eingeschränkt werden. Zusätzliche Komplexität verlangsamt Wertschöpfung und lässt die Kosten steigen. SaaS-Plattformen wie Snowflake beseitigen diese Komplexität und die Abhängigkeit von Fachwissen. Die Bereitstellung und Verwaltung von Snowflake-Ressourcen kann vollständig automatisiert werden, mit Infrastruktur als Code mit einem Höchstmaß an Sicherheit und Governance, interoperabel mit jeder Public Cloud.

Die nächste Stufe ist die Abstraktion der Komplexität von Daten-Workflows. Snowflake kann auch hier helfen, indem Daten-Workflows automatisiert werden – so können Fachbereiche ihre Daten einfacher als Produkte bereitstellen und mit den zur Verfügung stehenden Tools direkt integrieren. Weitere wichtige Tools, die Teil einer Data-Mesh-Architektur sein sollten, sind Ingestion sowie großflächige Automatisierung, Machine Learning und verwandte Technologien.

Zusammenfassend lässt sich sagen, dass eine geeignete Plattform für die Data-Mesh-Architektur folgende Eigenschaften mitbringen muss: Sie sollte skalierbare Rechenpower zur Verfügung stellen, ortsunabhängig einsetzbar sein, alle Daten im Unternehmen zugänglich machen können und außerdem dabei helfen, den “Data as Product”-Ansatz zu verwirklichen, indem sie Produkt-Pipelines aufsetzen kann und alle Tools zur Verfügung stellt, die es braucht, um Daten zu nutzen, zu verarbeiten und zu kontrollieren, sowie um eine zentrale Governance und Datensicherheit zu gewährleisten.

 

„Data Mesh“ geht zurück auf die Informatikerin Zhamak Dehghani, die den Begriff 2019 in einem viel beachteten Artikel prägte und das Konzept in diesem Video vorstellt.

 
Nächster Artikel: „Wie man Daten besitzt und gleichzeitig zur Verfügung stellt“

Dies ist der letzte Teil der Artikelserie zum Thema Data Mesh von Snowflake. Die weiteren drei Artikel (Artikel 1, Artikel 2, Artikel 3) behandelten den Einstieg zum Thema Data Mesh, den kulturellen Wandel im Unternehmen sowie die technische Transformation.

Original Post>