Читать книгу Data Science - Michael Zimmer - Страница 23
2.3Vom Nebeneinander zum Miteinander
ОглавлениеWenn ein Unternehmen die nächste Stufe der DIKW-Pyramide erklimmt, bedeutet dies, dass das Informationssystem neben den bereits vorhandenen Systemen neue integrieren muss, die das alte nicht ablösen, sondern ergänzen sollen. Daher ist es auch im Fall von Data Science notwendig, geeignete Strukturen nicht nur seitens der Organisation (Aufbau, Prozesse) zu schaffen. Auch hinsichtlich der Architektur des Informationssystems muss Entwicklungsarbeit geleistet werden.13
In den meisten Unternehmen steht im Zentrum des BI-Informationssystems nach wie vor ein auf einer relationalen Datenbank basierendes Data Warehouse, das über viele Jahre hinweg auf- und ausgebaut wurde. Trotz aller Entwicklungen über die vergangenen 10 Jahre rund um die Themen Big Data, NoSQL und verteilte Systeme ist davon auszugehen, dass diese traditionelle Umgebung der Informationssysteme mittelfristig bestehen bleiben wird. Daneben entwickelte sich auf der Basis der angesprochenen Themen und mit Data Science eine neue Welt, die in zunehmendem Maße ebenfalls wichtige Informationen generiert und Entscheidungen unterstützt.
Waren die beiden Welten jedoch bis vor wenigen Jahren noch architektonisch getrennt, wachsen sie derzeit immer stärker zu einem ganzheitlichen Analytics-Ökosystem zusammen. Dies ist auch die Folge einer zunehmenden Nutzung von Data Science im Produktivbetrieb. Data Science hat mittlerweile den Sprung aus dem Experimentierlabor herausgeschafft und etabliert sich verstärkt als wichtiger Bestandteil im System der Unternehmenssteuerung. Dabei dürfte auch die von der GI formulierte Unterscheidung zwischen BI und Big Data schon heute als überholt gelten. Die GI definiert als ein Unterscheidungsmerkmal:
»Business Intelligence Lösungen setzen auf traditionelle Datenbanksysteme wie relationale Datenbanken, wohingegen Big Data Lösungen auf neuen Konzepten wie zum Beispiel Not Only SQL (NoSQL) Datenbanken oder dem Hadoop Framework basieren […].« 14
Quelle: Marschall/Baars (2017)
Abb. 2–4 Die Pi-Architektur nach [Marschall & Baars 2017]
Mit den neuen Architekturen, die traditionelle BI-Systeme mit den neuen Ansätzen der Analytics-Welt vereinen, geht nicht nur die qualitative Verbesserung des Informationssystems einher. Ein weiterer im Unternehmensumfeld wichtiger Aspekt ist die Erhöhung der Agilität. Durch die Nutzung von Data Lakes als weiterer Datenhaltungskomponente oder Konzepten wie einem Data Vault können sowohl die bisherigen BI-Anforderungen als auch die neuen Analytics-Herausforderungen gemeistert werden. Ein klassisches Reporting wird ebenso unterstützt wie ein Stream Processing oder Data-Science-Analysen. Eine mögliche Ausprägung dieser neuen Architekturen ist in Abbildung 2–4 dargestellt. Marschall und Baars schlagen hierbei ein Enterprise Data Reservoir im Rahmen der von ihnen entwickelten Pi-Architektur vor [Marschall & Baars 2017]. Für Kelleher und Tierney stellt das existierenden Data Warehouse eines Unternehmens dabei eine natürliche erste Wahl als Datenquelle für Data-Science-Analysen dar. Die bereits bereinigte Datenbasis im Data Warehouse ist geeignet, um die Projektlaufzeiten für Data-Science-Projekte deutlich zu reduzieren:
»[…] a data warehouse is a powerful resource for data science. From a data science perspective, one of the major advantages of having a data warehouse in place is a much shorter project time. […] If a data warehouse is available in a company, then the effort and time that go into data preparation on individual data science projects is often significantly reduced.«
[Kelleher & Tierney 2018, S. 73]
Die angesprochenen neuen Architekturen führen zu einer hybriden Business Intelligence, die einerseits aus dem bekannten, in der Regel auf einem RDBMS beruhenden Teil besteht, der zumeist über die vergangenen 10–20 Jahre im Unternehmen aufgebaut wurde. Im Rahmen der Erweiterung des Informationssystems um moderne analytische Komponenten und Werkzeuge, bei denen vor allem die Nutzung von Data Science im Mittelpunkt steht, muss zu einem gewissen Zeitpunkt der Aufbau der oben skizzierten neuen Struktur erfolgen. Damit erhalten wir ein Informationssystem, das sich, in Anlehnung an HOLAP, als Hybrid BI bezeichnen lässt.15 Relationale und NoSQL-Datenbank koexistieren in dieser Struktur, die ein revisionssicheres Reporting ebenso ermöglicht wie agile Ad-hoc-Analysen oder das Arbeiten in Analytics Labs. Kelleher und Tierney sprechen in diesem Kontext auch von einer hybrid database:
»The hybrid database automatically balances the location of the data based on the frequency of access and the type of data science being performed.«
[Kelleher & Tierney 2018, S. 90]
Die Autoren veranschaulichen diese Idee am Beispiel einer Hadoop-Installation, die mit einem RDBMS gekoppelt ist. Obwohl ein Großteil der Daten im Hadoop-Cluster gehalten wird, stehen sie den Analysten über eine Virtualisierungsschicht jederzeit zur Verfügung.