Open Source versus kommerzielle Software für Advanced Analytics

Open Source ist allgegenwärtig im Bereich Advanced Analytics. In Datenaufbereitung, Visualisierung und mathematischer Modellierung sind Sprachen wie R, Python und Scala sowie grafische Werkzeuge wie WEKA, RapidMiner und KNIME sehr präsent. Aber die Nutzung von Open Source bringt auch Fragen mit sich. Viele Data Scientists greifen auf Sprachen wie R und Python zurück, da sie kostenlos verfügbar sind, sie auf verschiedenen Plattformen laufen und zudem einen sehr hohen Funktionsumfang aufweisen. So ist es nicht verwunderlich, dass jeder Data Scientist sein Tool mitbringt – die Einstiegshürde ist gering. Für ein Data Lab und die Unternehmens-IT stellt sich allerdings die Frage, wie eine Vielzahl von neuen Softwarelösungen in die Softwarelandschaft und IT-Architektur eines Unternehmens integriert werden können. Ein weiterer wichtiger Punkt ist bei der Verarbeitung von großen Datenmengen die eingeschränkte Performanz von Open-Source-Sprachen. Dies spielt auch eine wichtige Rolle in der Operationalisierung von Advanced-Analytics-Lösungen. Viele Anfragen in kurzer Zeit zu bewältigen bzw. Daten sogar in Realtime zu analysieren kann mit Open-Source-Sprachen problematisch sein. Im Rahmen der Operationalisierung besteht zudem die Frage wie entwickelte Modelle direkt in operative Anwendungen integriert werden können. Operative Anwendungen basieren meist auf Sprachen wie Java, Java Script, C oder Ruby, so dass es nicht direkt möglich ist R- oder Python-Code zu integrieren. Eine weitere Frage in der Operationalisierung bezieht sich auf die Möglichkeiten des Model Managements. Ein fertiges Modell, das im Betrieb läuft, unterliegt einer Kontrolle, neuem Dateninput und der Versionierung. Bei Open-Source-Sprachen müssen Funktionalitäten für das Management der Lösungen für den spezifischen Fall erstellt werden. Für viele diese Fragen gibt es im Open-Source-Bereich Lösungen bzw. haben viele kommerzielle Anbieter Lösungen geschaffen, die es ermöglichen damit umzugehen. Die Stärken kommerzieller Lösungen liegen vor allem in den Bereichen Visualisierung, Operationalisierung, Kollaboration und Model Management.

Da Open-Source-Software unter Data Scientists stark verbreitet ist und in den Bereichen Datenaufbereitung und Modellierung umfangreiche Funktionen bietet, gibt es zudem mittlerweile vielfältige Möglichkeiten Open-Source-Lösungen in kommerzielle Advanced-Analytics-Plattformen zu integrieren und so die oben genannten Fragen zu adressieren. Dabei geht es auf Anwenderseite vor allem um die Fragen ob alle Komponenten des Open-Source-Advanced-Analytics-Ökosystems, also Engines, Libraries und IDEs durch kommerzielle Plattformen integriert werden können, ob in einer Plattform Open Source entwickelt werden kann und welche Möglichkeiten es gibt, die Performanz zu steigern.

Weitere Informationen zu kommerzieller Software für Advanced Analytics und den Integrationsmöglichkeiten von Open-Source-Software sind im BARC Score Advanced Analytics Platforms zu finden. BARC unterstützt die Softwareauswahl durch die MyScore Angebote, die relevante Anbieter in Abhängigkeit bestehender Lösungen und Architekturen bewerten um einen objektiven Softwareauswahlprozess zu gewährleisten.