Data Architecture: Was ist eine Datenarchitektur?

Data Architecture – auch als Datenarchitektur oder Informationsarchitektur bezeichnet – ist eine Unterdisziplin der IT-Architektur. Die Datenarchitektur nimmt eine ganzheitliche Perspektive in Bezug auf grundlegende Strukturen und Prozesse im Zusammenhang mit Daten beziehungsweise Informationen ein.

Data Architecture beschreibt gemäß The Open Group Architecture Framework (TOGAF) die Struktur der logischen und physischen Datenbestände und der Ressourcen rund um das Datenmanagement einer Organisation. Sie ist eine Unterkategorie der Enterprise Architecture und umfasst Modelle, Richtlinien, Regeln und Standards, um Daten in Unternehmen

  • zu erfassen,
  • zu speichern,
  • anzuordnen,
  • zu integrieren und
  • zu verwenden.

Die Datenarchitektur fällt in den Zuständigkeitsbereich eines Data Architects oder einer vergleichbaren Funktion. Ziel ist es, Geschäftsanforderungen in Daten- und Systemanforderungen zu übersetzen und Daten sowie deren Fluss innerhalb des Unternehmens zu managen. Viele Betreiebe arbeiten derzeit daran, ihre vorhandene Data Architecture zu modernisieren, um eine Grundlage für die digitale Transformation zu schaffen und die Chancen der KI-Nutzung vollständig zu erschließen.

Laut Joshua Klahr, Vice President of Product Management bei Splunk, bilden sechs Prinzipien die Grundlage einer modernen Datenarchitektur:

  1. Daten sind ein gemeinsames Gut: Eine Data Architecture muss abteilungsspezifische Datensilos auflösen und allen Stakeholdern eine ganzheitliche Sicht auf das Unternehmen ermöglichen.
  2. User brauchen angemessenen Zugang zu Daten: Moderne Datenarchitekturen müssen Interfaces bereitstellen, die den Benutzern einen einfachen Datenkonsum mit für sie geeigneten Tools ermöglichen.
  3. Sicherheit ist essenziell: Eine zeitgemäße Data Architecture ist auf Sicherheit ausgelegt und unterstützt Datenrichtlinien und Zugriffskontrollen auf Ebene der Rohdaten.
  4. Gemeinsames Vokabular: Shared Data Assets wie Produktkataloge, Fiskalkalender-Dimensionen und KPI-Definitionen erfordern ein gemeinsames Vokabular, um Konflikte in der Analysephase zu vermeiden.
  5. Daten kuratieren: Investieren Sie in Kernfunktionen zur Datenkuratierung (wichtige Datenbeziehungen modellieren, Rohdaten bereinigen und relevante Dimensionen und Messwerte kuratieren).
  6. Datenflüsse agiler gestalten: Verringern Sie die Anzahl der notwendigen Datenverschiebungen, um Kosten zu senken, die Aktualität der Daten zu erhöhen und die Agilität des Unternehmens zu optimieren.

Laut dem Softwareunternehmen BMC setzt sich eine moderne Datenarchitektur aus den folgenden Komponenten zusammen:

  • Data Pipeline: Sie beschreibt den Prozess, in dem Daten gesammelt, verschoben und verfeinert werden. Sie umfasst Datenerfassung, -Refinement, -speicherung, -analyse und -bereitstellung.
  • Cloud Storage: Nicht alle Datenarchitekturen nutzen Cloud-Speicher – viele moderne Data Architectures setzen aber auf Public-, Private- oder Hybrid-Cloud-Instanzen, um Agilität und Flexibilität zu gewährleisten.
  • Cloud Computing: Neben Storage-Zwecken nutzen viele moderne Datenarchitekturen Cloud Computing auch für Datenanalyse und -management.
  • Application Programming Interfaces: Moderne Datenarchitekturen nutzen APIs, um es zu erleichtern, Daten freizugeben und gemeinsam zu nutzen.
  • KI- und ML-Modelle: Künstliche Intelligenz und Machine Learning kommen zum Einsatz, um Systeme für Aufgaben wie Datenerfassung oder -Labeling zu automatisieren. Gleichzeitig kann eine Data Architecture Unternehmen dabei unterstützen, KI und ML in großem Maßstab auszurollen.
  • Data Streaming: Beim Streaming werden Daten kontinuierlich von einer Quelle zu einem Ziel geleitet und dort in Echtzeit (oder nahezu in Echtzeit) verarbeitet und analysiert.
  • Container-Orchestrierung: Ein Container-Orchestrierungssystem wie das Open-Source-System Kubernetes wird häufig verwendet, um die Bereitstellung, Skalierung und Verwaltung von Software zu automatisieren.
  • Realtime Analytics: Das Ziel vieler moderner Datenarchitekturen ist es, Echtzeit-Analysen zu ermöglichen – also die Möglichkeit, neue Daten zu analysieren, sobald diese in der Umgebung ankommen.

Dem “Data Management Book of Knowledge” (DMBOK 2) zufolge definiert Data Architecture den Plan für die Verwaltung von Datenbeständen. Sie richtet sich an der Unternehmensstrategie aus, um strategische Datenanforderungen und Designs festzulegen und Anforderungen zu erfüllen. Die Datenmodellierung ist demnach der “Prozess der Entdeckung, Analyse, Darstellung und Kommunikation von Datenanforderungen in einer präzisen Form – dem Datenmodell”.

Zwar zielen sowohl Datenarchitektur als auch Datenmodellierung darauf ab, die Lücke zwischen Geschäftszielen und Technologie zu schließen. Allerdings geht es bei der Data Architecture um die Makrosicht, die darauf abzielt, die Beziehungen zwischen den Funktionen, der Technologie und den Datentypen eines Unternehmens zu verstehen und zu unterstützen. Bei der Datenmodellierung steht dagegen eine fokussierte Sicht auf bestimmte Systeme oder Business Cases im Mittelpunkt.

Es gibt diverse Enterprise Architecture Frameworks, die gerne als Grundlage für den Aufbau eines Data Architecture Frameworks herangezogen werden:

  • DAMA-DMBOK 2: Das Data Management Body of Knowledge von DAMA International ist ein Framework, das speziell auf Data Management ausgerichtet ist. Es bietet Standarddefinitionen für Datenmanagementfunktionen, -leistungen, -rollen und andere Terminologien sowie Leitprinzipien für das Datenmanagement.
  • Zachman Framework for Enterprise Architecture: Das Zachman Framework ist eine Unternehmensontologie, die von John Zachman bei IBM in den 1980er Jahren entwickelt wurde. Die “Data Column” des Zachman-Frameworks umfasst mehrere Ebenen, darunter wichtige Architekturstandards, ein semantisches Modell, ein konzeptionelles Datenmodell, ein physisches Datenmodell und Datenbanken.
  • The Open Group Architecture Framework: TOGAF ist eine Enterprise-Architecture-Methodik, die ein High-Level-Framework für die Entwicklung von Unternehmenssoftware bietet. Phase C von TOGAF umfasst die Entwicklung einer Data Architecture und den Aufbau einer zugehörigen Roadmap.

Moderne Datenarchitekturen müssen so konzipiert sein, dass sie die Vorteile neuer Technologien wie künstlicher Intelligenz (KI), Automatisierung, dem Internet of Things (IoT) und der Blockchain erschließen können. Laut Dan Sutherland, CTO Data Platforms bei IBM, sollten moderne Datenarchitekturen folgende Charakteristiken aufweisen:

  • Cloud-native: Moderne Datenarchitekturen sollten so konzipiert sein, dass sie elastische Skalierung, Hochverfügbarkeit, End-to-End-Sicherheit für Daten (in Bewegung und im Ruhezustand) sowie Kosten- und Leistungsskalierbarkeit unterstützen.
  • Skalierbare Data Pipelines: Um die Vorteile neuer Technologien nutzen zu können, sollten Datenarchitekturen Echtzeit-Daten-Streaming und Mikro-Batch-Daten-Bursts unterstützen.
  • Nahtlose Datenintegration: Eine Data Architecture sollte sich über Standard-APIs in bestehende Anwendungen integrieren lassen. Die Schnittstellen sollten auch für die gemeinsame Nutzung von Daten über Systeme, Standorte und Organisationen hinweg optimiert sein.
  • Daten in Echtzeit: Moderne Datenarchitekturen sollten die Möglichkeit zur automatisierten und aktiven Datenvalidierung, -klassifizierung, -verwaltung und -steuerung bieten.
  • Entkoppelt und erweiterbar: Datenarchitekturen sollte so konzipiert sein, dass sie lose zusammenhängen. So ist sichergestellt, dass Services minimale Aufgaben unabhängig von anderen Diensten ausführen können.

Wir haben einige relevante Jobrollen im Zusammenhang mit Data Architecture für Sie zusammengestellt. Das angegebene Durchschnittsgehalt bezieht sich auf Daten des Karriereportals Stepstone.

Dieser Beitrag basiert auf einem Artikel unserer US-Schwesterpublikation CIO.com.

Original Post>