Herausforderungen im Umgang mit externen Daten

Externe Daten gewinnen an Bedeutung

Der Gebrauch von externen Daten ist durchaus verbreitet. Eine Befragung im Rahmen der BARC-Anwenderstudie Advanced & Predictive Analytics 2017 ergab, dass neben internen Daten bei zwei Drittel der Unternehmen auch externe Datenquellen in die Analyse einbezogen werden. Rund 30 Prozent der Unternehmen kaufen sogar externe Daten hinzu.

Besonders relevante Typen externer Daten sind Wetterdaten, räumliche Daten, Social-Media-Daten, Webblogdaten und demographische Daten. Für diese Datentypen existieren verschiedene Quellen, interessante Use Cases sowie verschiedene technische Lösungen, um die Arbeit mit diesen Daten zu vereinfachen.

Herausforderungen im Umgang mit externen Daten

Wenn der geeignete Use Case und die entsprechenden Datentypen gefunden wurden, muss die Frage geklärt werden, wie diese Daten beschafft, aufbereitet, analysiert und in den Datenhaushalt des Unternehmens integriert werden sollen. Die wichtigsten Herausforderungen betreffen daher die Identifikation relevanter Quellen, die technische Anbindung, die Speicherung, die Integration und die Analyse.

Relevante Datenquellen sind z.B. Open Data. Open Data sind Daten, die unentgeltlich verfügbar sind und in ihrer Nutzung keinen Einschränkungen unterliegen. Dazu zählen vor allem demographische und räumliche Daten, die von Kommunen, Ländern oder Universitäten zur Verfügung gestellt werden. Eine weitere Datenquelle sind von Unternehmen zur Verfügung gestellte Daten, die, obwohl proprietär, zu bestimmten Bedingungen für eine unentgeltliche Verwendung durch Dritte freigegeben sind. Hier ist zu berücksichtigen, dass die kostenlose Nutzung der Daten oft einer Nutzungsbeschränkung unterliegt. Datenmärkte bieten eine entgeltliche Nutzung von externen Daten. Beispiele sind Quandl oder Qlik Datamarket.

Sind die notwendigen externen Daten identifiziert, müssen sie technisch angebunden werden. In manchen Softwarepaketen ist ein Zugang zu bestimmten öffentlichen Datenquellen integriert. So bieten z.B. Datenintegrationswerkzeuge wie die von Talend oder Informatica Konnektoren zu Social-Media-Quellen; die Advanced-Analytics-Plattform RapidMiner enthält einen Konnektor zum Linked-Open-Data-Projekt, und Microsoft Azure ML ist stark integriert mit dem eigenen Marktplatz. Auch Oracle stellt über die Oracle Data Cloud eine Vielzahl von Daten zur Verfügung.

Die Speicherung externer Daten kann dadurch erschwert werden, dass Daten polystrukturiert sind, ein großes Volumen erreichen oder kurzen Aktualisierungszyklen unterliegen. Erschwerend kommt hinzu, dass für Analysen nicht nur der aktuelle (Daten-)Stand relevant ist, sondern oft eine Historie dieser Daten notwendig ist. Die meisten Datenanbieter haben diese Herausforderung erkannt und bieten Unternehmen auch den Service der Datenspeicherung an.

Um Daten aus verschiedenen Quellen analysieren zu können, muss aus heterogenen Datenquellen ein homogener Datenstrom gemacht werden. Dies bedeutet, dass zum einen verschiedene, heterogene externe Datenquellen integriert und zum anderen, dass interne Daten mit externen Daten angereichert und gematcht werden müssen. Verschiedene Unternehmen bieten auch hier Unterstützung, indem sie diese Integration bereits vorgenommen haben. Je nach Unternehmen und Anwendungsfall stehen hier unterschiedliche Datentypen im Fokus.

Um Erkenntnisse aus externen Daten zu ziehen, müssen diese Daten in Verbindung mit internen Daten analysiert werden. Neben visuellen Analysen werden dabei Methoden des Data Mining verwendet, um Kundencluster, Einflussvariablen und Kaufwahrscheinlichkeiten zu identifizieren oder Mengen zu prognostizieren. Dafür können die Funktionen, die eine Advanced-Analytics-Plattform bieten, genutzt werden. Darüber hinaus bieten verschiedene Softwarelösungen fertige Analysen für spezifische Use Cases an.