Data Debt: 6 Mittel gegen Datenschulden

Um technische Schulden zu vermeiden, setzen Devops-Teams auf Infrastructure as Code, automatisieren Deployments mit CI/CD und etablieren Continuous-Testing-Strategien. Aus gutem Grund: Technical Debt kann agile Entwicklungsteams lähmen. “In kleinen Dosen können technische Schulden nützlich sein”, gibt jedoch Marko Anastasov, Mitbegründer von Semaphore CI/CD, zu bedenken und erklärt: “Das eröffnet die Chance, dringende Dinge im Blick zu behalten.”

Data-Engineering-Teams, die Data Ops und Data Governance optimieren wollen, sollten technische Schulden in ihrem Code und ihren Automatisierungen abbauen, Datenwissenschaftler ihre Machine-Learning-Modelle und anderen Analysecode entsprechend evaluieren.

Technical Debt auf Codeebene zu reduzieren, reicht für Data- und Analytics-Teams allerdings nicht aus. Sie müssen sich auch mit Data Debt (Datenschulden) befassen, indem sie:

  • Datenduplikate reduzieren,
  • die Datenqualität verbessern,
  • Dark-Data-Quellen identifizieren,
  • Stammdaten zentralisieren, und
  • Data-Security-Probleme beheben.

Ähnlich wie technische Schulden sind auch Datenschulden leichter zu erkennen, wenn sie erst einmal entstanden sind. Dann sind die verantwortlichen Teams gefragt, Probleme zu lösen, bevor Verbesserungen an der Daten-Pipeline hinzugefügt oder neue Analytics-Funktionen entwickelt werden. Best Practices zu implementieren, um neue Datenschulden zu minimieren, ist dabei ein diffiziles Unterfangen – vor allem, wenn die Teams nicht sämtliche künftigen Analytics-, Dashboarding- und Machine-Learning-Use-Cases vorhersehen können.

Die folgenden sechs Handlunsgempfehlungen unterstützen Datenteams dabei, Data-Debt-Risiken zu vermeiden, respektive zu mindern.

Devops-Teams sind sich bewusst, dass es deutlich schwieriger ist, sich um Codequalität, Defekte und Sicherheitsprobleme zu kümmern, wenn der Code erst einmal geschrieben ist. Deswegen streben sie nach einem “Shift Left”, wenn es um Security- und Qualitätssicherungs-Praktiken geht. Ganz ähnlich sollten Dataops-Engineers und Datenwissenschaftler bei Data-Governance-Praktiken vorgehen – und diese zum Einsatz bringen, während sie Daten-Pipelines, Analytics- und Machine-Learning-Modelle bauen oder warten.

“Datenkataloge, Data-Lineage-Tools und Metadaten-Managementsysteme können Unternehmen dabei unterstützen, Datenquellen und -modelle zu managen und zu tracken. Das kann das Risiko von Data Debt reduzieren”, meint Joseph Rutakangwa, Mitbegründer und CEO des Analytics-Dienstleisters Rwazi. Er ergänzt: “Tools für die Datenqualität – etwa Data-Profiling- oder Data-Cleansing-Tools – können dazu beirtragen, Probleme in diesem Bereich zu erkennen und zu verhindern, dass qualitativ schlechte Daten einfließen. Auch das trägt dazu bei, Datenschulden zu vermeiden.”

Auch Michael Drogalis, Principal Technologist bei Confluent, erachtet den Einsatz von Technologien als hilfreich – ohne Best Practices gehe es aber nicht. Er empfiehlt: “Wählen Sie Ihre Access Patterns mit Bedacht, halten Sie die Governance aufrecht, setzen Sie auf Versionierung und unterscheiden Sie Source-of-Truth-Daten von Derived Data.”

Agile Datenteams mit Data-Governance-Technologien und Best Practices auszustatten, ist ein guter Start. Allerdings sollten die Teammitglieder sich ihrer spezifischen Rolle und Verantwortlichkeiten in Bezug auf Technologie und Data Debt bewusst sein, um einen Prozess der kontinuierlichen Verbesserung anzustoßen.

CEO Rutakangwa empfiehlt an dieser Stelle, Data-Stewardship-Rollen einzuführen: “Das hilft dabei, Datenmodelle zu pflegen, sicherzustellen, dass die Daten korrekt sind, und Probleme anzugehen, um Datenschulden zu minimieren.”

Sasha Grujicic, President beim Analytics-Spezialisten NowVertical, zeigt auf, was Unternehmen zu erwarten haben, die die richtige Data-Governance-Struktur identifizieren und skizzieren, indem sie eine Top-Down-Strategie anwenden und ein skalierbares System aufbauen, das aktuelle und zukünftige Eingaben unterstützt: “In den meisten Fällen wird dies das Data-Debt-Risiko reduzieren, die Kosten senken, die Produktivität steigern und eine Grundlage für Wachstum in den kommenden Jahren schaffen.”

Datenteams, die Datenschulden abbauen wollen, sollten in erster Linie darauf abzielen, das Vertrauen (Trust) der Mitarbeiter in die Daten zu verbessern. Geht es um Entscheidungen, sollte man der Genauigkeit und Zuverlässigkeit vertrauen können.

“Um den Level of Trust in Ihre Daten zu bestimmen können Sie Cataloging-Tools zu Rate ziehen und sich ansehen, wie viele Datenexplorationen und Production Reports auf spezifischen Daten beruhen”, empfiehlt Michel Tricot, Mitbegründer und CEO des auf Datenintegration spezialisierten Unternehmens Airbyte.

New
KDF Straight Leg Jeans for Women High Waisted Jeans Frayed Baggy Pants Raw Hem Loose Stretchy Cropped Wide Leg Jeans Black Size 10
  • Straight Leg Jeans with Raw Trim Hem: These high...
  • The Silhouette of Womens Straight Leg Jeans: The...
  • The Style of Wide Leg Jeans for Women: The novel...
  • For Every Occasion: Whether it's a casual hangout...
  • Care Instructions & Size for Womens Jeans:...
New
Hip Hop Graphic Hoodie for Men Women,Cotton Pullover Loose Unisex Sweatshirt,Stylish Perfect Solid Color Streetwear
  • Solid Hoodie: This versatile hoodie is a must-have...
  • Oversized Comfort: The relaxed fit and oversized...
  • Letter Graphic: The fashion letter graphics on...
  • Suitable for All Occasions: This hoodie is perfect...
  • Quality Materials: Made with a soft and breathable...
New
Plus Size Dresses for Curvy Women, Summer Dresses 2024 Wedding Guest Vacation Party, Womens Boho Floral Dress Casual Flowy Maxi with Sleeves
  • plus size dresses for curvy women plus size summer...
  • plus size casual dresses plus size wedding guest...
  • vacation dresses for women 2024 party dresses for...
  • floral wedding guest dress floral dresses for...
  • flowy maxi dresses for women flowy summer dresses...
New
JIAYOUYA Womens 2024 Tankini Swimsuit Tummy Control Flowy Swimwear Two Piece Bathing Suits Swim Tank Top with Boyshorts A-Black
  • 👙【Tankini Tank Top】: Two piece bathing...
  • 👙【Boyshorts Bottom】: Sporty and flexible...
  • 👙【Removable Padded】: The athletic two piece...
  • 👙【Variety of Wearing】: 2 piece swimsuit top...
  • 👙【Occasion】: Women tankini and shorts...

Ein höherer Nutzungsgrad kann ein Anzeichen für Trust sein – ist aber nicht der einzige Faktor, der hier mit hereinspielt. Dataops und Governance-Teams sollten die Datenqualität anhand folgender Metriken erfassen:

  • Genauigkeit,
  • Vollständigkeit,
  • Konsistenz,
  • Aktualität,
  • Einzigartigkeit, und
  • Validität.

Datenverantwortliche sollten darüber hinaus in Erwägung ziehen, Feedback von Führungskräften und Usern einzuholen und eine Bewertung für die Datenzufriedenheit zu entwickeln, die das Vertrauen in die Daten, Reports und Vorhersagen misst.

„Deutschland befindet sich im digitalen Umbruch“

Original Post>