Warum Daten das neue Öl sind – Valentine Gogichashvili spricht über die Rolle der Data Engineers

Valentine Gogichashvili, Head of Engineering bei Zalando SE, präsentierte seinen Vortrag “Data is the new Oil” – Daten sind das neue Öl –  auf der Premiere des Data Festival 2018 in München. Außerdem spricht er über die wichtige Rolle eines Data Engineers in der erfolgreichen Realisierung eines Data Science Projektes.

Das Data Festival ist eine Plattform für Wissensaustausch, Diskussion und neue Erkenntnisse aus den Bereichen Data Science und Machine Learning.

Das Data Festival wird von der AI & Data Science Beratung Alexander Thamm GmbH und dem unabhängigen Analystenhaus BARC veranstaltet und fungiert als Plattform für den Austausch und Transfer von Wissen in den Bereichen Data Science, Machine Learning und Artifial Intelligence. Valentine Gogichashvili gibt Einblicke in die Verarbeitung von Daten bei Zalando. Darüber hinaus betont er die Bedeutung von Data Engineers bei Werterzeugung aus Daten, respektive der Umwandlung von Daten in ‚wertvolles Öl‘.

Terminologie: Warum Daten das neue Öl sind

Die erste Analogie von Öl und Daten stammt aus dem Jahr 2006. Clive Humby, Chief Data Scientist und Executive Director bei Starcount Ltd., verglich Daten mit Öl, da beide unraffinierte Ressourcen sind, die erst dann an Wert gewinnen, wenn sie veredelt, beziehungsweise aufgeschlüsselt und analysiert werden.

Ein weiteres bemerkenswertes Zitat zur Terminologie von Daten und Öl stammt von dem italienischen Musik-Journalisten Piero Scaruffi aus dem Jahr 2016:

„The difference between oil and data is that the product of oil does not generate more oil (unfortunately), whereas the product of data (self-driving cars, drones, wearables, etc.) will generate more data (where do you normally drive, how fast/well you drive, who is with you, etc.).”

Scaruffi sagt in seinem Zitat aus, dass Daten einen signifikanten Vorteil gegenüber Öl haben: Während Öl eine natürliche Ressource mit begrenzter Verfügbarkeit ist, sind Daten eine Ressource, die zur Herstellung von Datenprodukten motiviert. Diese Produkte generieren wiederum weitere Daten, was deren Verfügbarkeit weiter erhöht.

Die Data Science Bedürfnispyramide

Valentine Gogichashvili beschreibt in seiner Präsentation ein Modell, das die Bedürfnispyramide in der Data Science darstellt. Entsprechend der Pyramidenform können höhere Bedürfnisse erst dann realisiert werden, wenn die nötige Basis auf den unteren Ebenen geschaffen ist. Auf der untersten Ebene ist vor allem das Sammeln von Daten notwendig, z.B. durch Zugriff auf externe Daten oder Inhalte, die von Nutzern generiert wurden.

Im nächsten Schritt sollten die Daten sowohl transferiert als auch gespeichert werden, wobei Optionen wie ETL, Pipelines sowie die Speicherung von strukturierten und unstrukturierten Daten genutzt werden. Durch die Bereinigung und Aufbereitung von Daten kann das Bedürfnis der Exploration und Transformation gedeckt werden. Als nächstes folgt der Schritt der Kennzeichnung und Aggregation Analysen, Metriken oder Trainingsdaten.

Für das Lernen und Optimieren können Methoden wie A/B-Tests, einfache Machine Learning Algorithmen oder Experimente eingesetzt werden. Ziel aller unteren Ebenen ist es, die Voraussetzungen für das oberste Ziel zu schaffen –  AI und Deep Learning. In vielen dieser Prozesse ist die Expertise von Data Engineers äußerst wichtig.

Warum wir mehr Data Engineers benötigen, um den Mehrwert aus Daten erfolgreich zu nutzen

Valentine Gogichashvili befragte Data Scientists in seinem Unternehmen, um mehr über deren Zufriedenheit zu erfahren. Dabei fand er heraus, dass in der Realität bis zu 80% der täglichen Arbeitszeit der Data Scientists tatsächlich für Aufgaben der Data Engineers aufgewendet wird, was zu einer gewissen Frustration unter den Datenwissenschaftlern führt. Weiterhin stellte sich heraus, dass sowohl der Zugriff auf Daten sowie die vollständige Nachverfolgung dieser Daten die wichtigsten Herausforderungen sind, mit denen die Data Scientists täglich konfrontiert sind.

Aus diesen Erkenntnissen lassen sich einige logische Konsequenzen ziehen:

Erstens:         Data Engineers sind keine Data Scientists.

Zweitens:       Data Engineers spielen eine entscheidende Rolle in der Data Science.

Drittens:        Unicorns (Fachkräfte, die sowohl in Data Science als auch in Data Engineering Experten sind) sind extrem           

                         selten.

Inwiefern lassen sich diese beiden Berufsbilder voneinander abgrenzen?

Um den Unterschied zu veranschaulichen, vergleicht Valentine Gogichashvili Data Engineers mit Installateuren: Installateure nehmen Elemente wie etwa Rohre (bzw. Technologie) und verbinden sie, um Flüssigkeiten (bzw. Daten) durch das System zu leiten. Anstelle von Rohren verwenden Data Engineers Technologien.

Da diese Technologien im Falle eines Data Engineers sehr anspruchsvoll sind, erfordert das Berufsbild eines Data Engineer viel Training und ein umfassendes Verständnis komplexer Technologien. Daher müssen Data Engineers sehr fachkompetent und spezialisiert sein – sie werden beispielsweise für die Entwicklung von Big Data Plattformen, die Auswahl geeigneter Technologien oder die Realisierung erfolgreicher Use-Cases benötigt. Daher sollten sie Teil jeder erfolgreichen Durchführung von Data-Science-Projekten sein.

Wie Data Science bei Zalando gehandhabt wird

Bei Zalando sind alle Teams sowohl an der Datengenerierung als auch an der Datenverarbeitung beteiligt. Eine Reihe technisch versierter Teams ist für die Weiterverarbeitung dieser Daten verantwortlich.

Valentine Gogichashvili stellte sicher, dass alle Teams über eine Kerninfrastruktur verfügen und autonom arbeiten können. Diese Autonomie wird durch die Bereitstellung einer Microservice-Architektur gewährleistet. Im Zuge der Implementierung dieser Microservices entstand eine Herausforderung bezüglich der erfolgreichen Datenintegration: Microservices erlauben keine Peer-to-Peer-Modelle. Dieses Problem führte zur Entwicklung des ‚Nakadi Event Bus‘ Systems. Es ist über die Open Source Plattform gitHub zugänglich.

So funktioniert Event Bus

Erforderliche Daten können von jedem Microservice über das ‚Event Bus‘ System gesendet werden. Im nächsten Schritt extrahieren die Teams ‚Data Lake‘ und ‚Infrastructure‘ die Daten in Zusamme

narbeit mit Data Engineers und fügen sie dem Data Lake hinzu. Anschließend werden diese Daten den technikaffinen Teams zur Verfügung gestellt: ‚Business Intelligence‘ (BI), ‚Machine Learning‘ (ML) und ‚Data Driven Decision Making‘ (DDM). Das DDM-Team ist für die Überwachung der Kernkennzahlen und des Empfehlungssystems verantwortlich.

Valentin Gogichashvilis vollständige Präsentation zum Thema Machine Learning Engineering und das Management von Daten bei Zalando ist hier verfügbar..