Neues von der Hausmesse: Snowflake lockt Python-Entwickler

Spricht Unternehmen an, die den Data-driven-Ansatz konsequent verfolgen wollen: Frank Slootman, CEO von Snowflake.


Foto: Snowflake

Im März 2022 hatte Snowflake für 800 Millionen Dollar Streamlit übernommen, Anbieter eines Open-Source-Frameworks, mit dem Entwickler und Data Scientists datenbasierte Anwendungen mit Python erstellen können. Auf der Hausmesse Snowday 2022 in Montana zeigte das Unternehmen nun, wie weit die Integration des Zukaufs vorangeschritten ist. Die Kernbotschaft: Entwickler können künftig direkt auf der Snowflake-Plattform Python-Apps programmieren, bereitstellen und mit den Teams teilen – auf der Basis der in der Daten-Cloud verfügbaren Daten und Machine-Learning-Modelle.

Der Softwarekonzern hat dazu das bereits angekündigte Entwickler-Framework Snowpark for Python offiziell in den Markt eingeführt. Damit macht der Anbieter seine Open-Source-Bibliotheken für alle Nutzer und Teams verfügbar. Seit der Veröffentlichung der Preview und der Anaconda-Integration zu Jahresbeginn habe sich die Akzeptanz von Snowpark for Python bereits versechsfacht, teilte der Anbieter mit. Die Verantwortlichen bedankten sich beim Entwicklungspartner Anaconda, der seine quelloffenen Python-Bibliotheken für Snowflake-User bereitstelle, und bei dbt Labs, das geholfen habe, die Brücke zwischen Analytics- und Data-Science-Teams zu schlagen, indem SQL und Python nahtlos kombiniert werden könnten.

Mit dem Framework erhalten Developer nun eine Architektur, die die meisten Programmiersprachen unterstützt, darunter Java, Scala, SQL und jetzt eben auch Python. Snowflake bezeichnet Snowpark für Python als Teil eines größeren Ökosystems, das verschiedene Teams im Unternehmen zusammenführe, um in einer sicheren Python-Sandbox zusammenarbeiten und entwickeln zu können. Dabei sollen Entwickler Machine-Learning-Trainings und andere speicherintensive Operationen direkt auf der Plattform ausführen können.

Das Softwareunternehmen verändert auch die Art und Weise, wie Nutzer siloübergreifend Datenpipelines aufbauen und mit Streaming-Daten umgehen können. Mit Schema Inference (verfügbar als Private Preview) könnten User nun das Onboarding von Daten beschleunigen. Mit den ab sofort verfügbaren Serverless Tasks sollen sie die Pipelines nativ auf der Snowflake-Plattform ausführen können.

Als weiteres Entwicklertool wurde Dynamic Tables (Preview) präsentiert. Einst als Materialized Tables gestartet, soll das Werkzeug die Grenzen zwischen Streaming- und Batch-Pipelines aufheben, indem es die inkrementelle Verarbeitung mithilfe einer deklarativen Entwicklung von Daten-Pipelines automatisiert. So soll das Codieren effizienter und einfacher werden. Zudem vereinfache dies auch Anwendungsfälle wie das Erfassen von Änderungsdaten oder das Isolieren von Snapshots, hieß es. Das alles vollzieht sich nativ, so dass es von allen Snowflake-Konten zu den dort bekannten Sicherheits- und Governance-Bedingungen genutzt werden kann.

Um den Anforderungen von Entwicklern noch besser gerecht zu werden, investiert Snowflake außerdem in native Funktionen für Observability & Developer Experiences. Bau, Testing, Debugging, Deployment und Monitoring von Daten-Pipelines soll durch Funktionen wie Alarme (Preview), Protokollierung (Preview), Event-Verfolgung (Preview), Task-Graphen und Verlauf (Public Preview) einfacher werden.

“Wir geben Entwicklern den Datenzugriff und die Tools, die sie benötigen, um auf der Snowflake-Plattform ihr Innovationstempo zu beschleunigen”, sagt Torsten Grabs, Produktmanager bei Snowflake. Entwickler müssten Anwendungen, Pipelines und Modelle vertrauenswürdig und ohne Komplexität erstellen können, damit die Data Cloud die Mehrwerte für das jeweilige Unternehmen in vollem Umfang schaffen könne.

Snowflake verkündete ferner, “Leistungsverbesserungen in der gesamten Engine” vorgenommen zu haben. Abfragen, Replikationsgeschwindigkeiten, neue Use Cases – all das funktioniere mit der verbesserten Elastic Performance Engine nun schneller. Mit dem Query Acceleration Service (Public Preview) würden besonders umfangreiche und ressourcenintensive Abfragen durch die Bereitstellung zusätzlicher Ressourcen beschleunigt – angeblich ohne dass die Gesamtrechenleistung erhöht werden muss. Außerdem werde die Abfrageeffizienz durch die Eliminierung von Joins optimiert und es gäbe Verbesserungen bei der Suche. Indem Details zum Nutzungsverhalten einzelner Accounts bereitgestellt würden, könnten Unternehmen zudem die Kosten optimieren.

Ein weiterer Schwerpunkt der Ankündigungen lag auf der Snowgrid-Technologie, einem Technologie-Layer, der durch den Austausch von Metadaten verschiedene Clouds und Regionen miteinander verknüpft und so die Compliance-konforme Zusammenarbeit weltweiter Teams in unterschiedlichen Unternehmen und Cloud-Welten ermöglicht. Die jüngsten Snowgrid-Verbesserungen konzentrieren sich dabei auf Collaboration, Daten-Governance und Business Continuity.

Beispielsweise gibt es nun Listing Discovery Controls, mit denen Daten internen und externen User-Groups feingranular und Cloud-übergreifend entsprechend der regulatorischen Vorgaben zugeteilt werden können. Neue Auto-Fulfillment-Fähigkeiten sorgen dafür, dass Daten sofort aktuell für Konsumenten zugreifbar werden, ohne manuelle Eingriffe. Hinzu kommen zusätzliche Analytics-Features, um die globale Datenverwaltung genau im Auge zu behalten.

Um die Cloud-übergreifende Governance zu verbessern und Unternehmen bei der Einhaltung internationaler Vorschriften zu unterstützen, führt Snowflake Automatisierungsfunktionen im Bereich Datenschutz ein, wobei eine Tag-basierte Maskierung sensiblen Spalten automatisch bestimmte Richtlinien zuweisen kann. Das Unternehmen hat außerdem die Suchoptimierung verbessert, sie unterstützt nun auch Tabellen mit Richtlinien für Maskierung und Zeilenzugriff.

Im Bereich Business Continuity verbesserte Snowflake die Funktionen rund um die Datenreplikation. Ein Pipeline-Failover soll sicherstellen, dass die Streams und Aufgaben zusammen mit ihren Konten, Datenbanken, Richtlinien und Metadaten repliziert werden. Auf diese Weise laufen laut Hersteller alle Datenpipelines nahtlos auf Zweitkonten, falls es Probleme gibt. Snowflake testet außerdem eine neue Benutzeroberfläche, die das Einrichten und Verwalten der Failover-Kontoreplikation erleichtern soll. (hv)

Original Post>