Der Data Engineer: Lange vernachlässigt, oft unterschätzt aber mit großem Potenzial.

Erfolgreiche Data-Science-Projekte basieren in der Regel auf Teamarbeit. Unternehmen, die mit der Datenauswertung starten, denken beim Recruiting dabei oft zunächst an den Data Scientist. Datenprojekte brauchen aber mehrere Rollen in einem Team, um erfolgreich sein zu können. Data-Science-Teams vereinen zahlreiche Fähigkeiten und Professionen. Der Data Engineer nimmt neben dem Data Scientist und dem Data Artist darin eine Schlüsselrolle ein. Data Engineering garantiert die Zuverlässigkeit und die nötige Performance der IT-Infrastruktur.

Wie wird man Data Engineer?

Data Engineers rekrutieren sich oft aus den Bereichen wie Informatik, Wirtschaftsinformatik und Computer-Technik. Das schließt jedoch nicht aus, dass auch jemand mit einer statistischen Grundausbildung, der zugleich erste Erfahrungen im Bereich Engineering hat, sich später im Bereich Data Engineering spezialisiert. Persönliche Präferenzen spielen demnach eine wichtige Rolle. Aber auch die Rahmenbedingungen müssen stimmen. Oft taucht in Unternehmen der Bedarf nach einem Data Engineer auf, wenn es um die Durchführung von konkreten Data-Science-Projekten geht. Learning on the Job bildet oft einen idealen Karrierestartpunkt und prägen die fachliche Ausrichtung von Data Engineers.

Die Aufgaben eines Data Engineers

Die Aufgaben des Data Engineers sind vielfältig. Allgemein zusammengefasst, kümmert sich der Data Engineer um alle Prozesse rund um die Generierung, Speicherung, Pflege, Aufbereitung, Anreicherung und Weitergabe von Daten. Ein wichtiger Aspekt dabei ist der Aufbau und das Monitoring der Hardware- und Software-Infrastruktur. Angefangen bei der Konzeption, dem Einkauf und Einrichtung aller nötigen Komponenten bis hin zur Entscheidung, welche Software und welche Services eingesetzt werden.

Viele der Tätigkeiten des Data Engineers sind an der Schnittstelle von Hardware und Datenmanagement bzw. Datenverarbeitung angesiedelt. Das Monitoring von Datenquellen zählt ebenso dazu wie das Management der Instanzen, die für die Analyse und Weiterverwendung zuständig sind. Er ist entsprechend nicht nur für die Auswahl der richtigen Data-Sets verantwortlich, sondern optimiert auch Algorithmen oder nimmt Produktivitätstools zur Datenanalyse in Betrieb. Ein wichtiger Bestandteil seiner Arbeit ist nicht zuletzt auch die Sicherheit und Stabilität des gesamten Systems. Dazu zählen auch die wichtigen Teilaspekte wie Datenschutz und Datensicherheit.

Essentielle Kenntnisse und Know-how

Der Data Engineer muss alle Anforderungen eines Datenprozesses kennen und Datenmengen skalieren können. Unternehmen, die noch am Anfang ihrer Data Journey stehen, unterschätzen die teilweise notwendigen Kapazitäten, um die anfallenden Daten zu speichern. Vor allem im Kontext der Industrie 4.0, wenn es sich also um Maschinendaten handelt, fallen nicht selten Petabytes an Daten an. Eine Lösung für das Problem der Skalierbarkeit sind Cloud-Services, weil durch sie der Bedarf an Speicherkapazität einfach erhöht werden kann. Nicht selten ist in kleineren Unternehmen nur ein einzelner Data Engineer für diese Aufgaben zuständig. Das bedeutet, dass ein Data Engineer ein guter Allrounder sein muss. In größeren Unternehmen werden die einzelnen Aufgaben jedoch so aufwändig und zum Teil so komplex, dass es nicht mehr möglich ist, dass eine Person alles gleichermaßen übernehmen kann.

Der DataEngineer – die „eierlegende Wollmilchsau“?

Neben den genannten Kernkompetenzen sollte ein Data Engineer ebenso über fortgeschrittene Kenntnisse im Programmieren verfügen. Immer wieder kann es vorkommen, dass Algorithmen angepasst oder weiterentwickelt werden müssen. Durch die Programmierkenntnisse wird auch die Zusammenarbeit zwischen Data Engineers und Data Scientists enorm erleichtert. Zu guter Letzt helfen Data-Science-Kenntnisse dabei, passgenaue und langfristig ausreichende IT-Infrastrukturen aufzubauen.

Ähnlich wie beim Berufsbild des Data Scientist wird auch beim Data Engineer oft unterschätzt, wie wichtig der kommunikative und zwischenmenschliche Aspekt bei der Arbeit ist. Ein Data Engineer kommt jeden Tag mit Menschen in Kontakt, die aus einem gänzlich anderen fachlichen Bereich kommen. Dabei sollten die Antworten eines Data Engineers nicht zu technisch ausfallen, so dass sie von Fachfremden nicht mehr verstanden werden können. Dies ist umso wichtiger, weil die Entscheidungen des Data Engineers den Arbeitsalltag dieser Kollegen stark beeinflussen können.

Der Data Engineer als Problemlöser

Der kommunikative Aspekt ist dem Data Engineer auch in seiner Rolle als Problemlöser nützlich. In Zeiten, in denen nahezu alle Prozesse innerhalb eines Unternehmens von der IT-Infrastruktur abhängen, ist es bei Störfällen entscheidend, das System so schnell wie möglich wieder zum Laufen zu bringen. Der Data Engineer ist oft die zentrale Anlaufstelle bei Problemen dieser Art. In der Regel gibt es selbst dann, wenn der Data Engineer Teil eines größeren Teams ist, kaum andere Experten im Unternehmen, die in extremen Notsituationen um Rat gefragt werden könnten. Darum ist die Fähigkeit, selbständig Lösungen zu finden, enorm wichtig.

Ein Beruf mit Potential

Data Engineering ist ein vergleichsweise junges Phänomen. Der Data Engineer, der manchmal auch „Big Data Engineer“ oder auch „Big Data Architekt“ genannt wird, lässt sich im Deutschen vielleicht am ehesten als „Dateningenieur“ bezeichnen. Bislang gibt es noch nahezu keine Möglichkeit, Data Engineering als klassischen Studiengang zu belegen. Doch schon heute zeichnet sich ab, dass das Berufsbild in Zukunft immer wichtiger werden wird und von vielen Unternehmen viel zu lange unterschätzt wurde.

Im Zuge der immer umfassender werdenden Digitalisierung wird bald kein Unternehmen, das auf Datenanalysen setzt, mehr ohne Data Engineer auskommen. Auch für die immer komplexer werdenden IT-Infrastrukturen und der mit der Datenmenge steigende Aufwand, Datenmanagement zu betreiben, stattet den Beruf mit enormem Potential aus. Insbesondere in Unternehmen, die im Umfeld von IoT und Industrie 4.0 agieren, wird der Bedarf auf nicht absehbare Zeit weiter steigen.