Читать книгу Data Science - Michael Zimmer - Страница 10
1Einleitung Uwe Haneke · Stephan Trahasch · Michael Zimmer · Carsten Felden 1.1Von Business Intelligence zu Data Science
ОглавлениеSeit dem Jahr 2015 hat sich die Welt der Business Intelligence (BI) schnell und signifikant verändert. Big Data und die damit zusammenhängenden Entwicklungen im Bereich der Data Science haben auch die Business Intelligence nicht unberührt gelassen. Und so sehen wir aktuell eine Erweiterung der bisherigen BI-Systeme und Architekturen, die die betrieblichen Informationssysteme agiler, schneller, mächtiger und passgenauer machen. Die neue BI-Welt enthält heute eine integrierte analytische Komponente, die weit über das hinausgeht, was man bis vor Kurzem noch kannte.
Dabei ist es nicht so, dass Analytics etwas grundlegend Neues in der Business Intelligence wäre. Allerdings vermochte es Data Science mit ihrem Hintergrund auf der wissenschaftlich, technischen Ebene, einen Innovationsschub auszulösen, dessen Ende noch nicht absehbar zu sein scheint. Die nachfolgenden Ausarbeitungen stellen daher zunächst dar, wie die bisherige BI-Entwicklung beginnend in den 1960er-Jahren bis heute verlief. Dabei wird ein besonderes Augenmerk auf die Business Analytics gelegt, die sich im Grunde genommen als das Pendent der Data Science in der Business Intelligence interpretieren lässt. Stubbs sieht dabei Business Analytics wie folgt [Stubbs 2013]:
»The cornerstone of business analytics is pure analytics. Although it is a very broad definition, analytics can be considered any data-driven process that provides insight. It may report on historical information or it may provide predictions about future events; the end goal of analytics is to add value through insight and turn data into information.«
Stubbs Definition und unser Verständnis von Data Science, das wir in diesem Buch zugrunde legen wollen, überlappen sich damit großteils. Im Folgenden wird im Buch der Begriff Business Analytics zwar zugunsten von Data Science (vgl. Abschnitt 1.2) aufgegeben, der für die datenanalytischen Methoden und Vorgehensweisen stehen soll. Zum besseren Verständnis und um nicht zuletzt die Ähnlichkeiten im Vorgehen zu veranschaulichen, erfolgt aber zunächst eine Herleitung des Begriffs Business Analytics.
Was aber ist das Ziel der Business Analytics und inwieweit wird sich die Rolle von Business Analytics durch Methoden und Technologien aus dem Bereich Big Data und Data Science verändern? Haben die Unternehmen mit Business Analytics nicht auch Data Mining betrieben? Diese Fragen lassen sich beliebig erweitern. Leider stehen den Fragen nur wenige präzise Antworten gegenüber. Wenn man versucht, sich diesem Thema von einer fachlichen Seite zu nähern, stellt man schnell fest, dass die Datenorientierung im betriebswirtschaftlichen Handeln zugenommen hat. Diese Zunahme entsteht auch durch die wachsende Integration unterschiedlicher unternehmensinterner und -externer Systeme. Basierend auf entstehenden Datensammlungen werden im Unternehmen schon von jeher Entscheidungen getroffen. Aktuell ist jedoch eine deutliche Zunahme der Datenorientierung bei Entscheidungen auf allen Unternehmensebenen zu verzeichnen. Dabei gerät nun auch zunehmend die technische und methodische Unterstützung bei der Entscheidungsfindung in die Diskussion – und im BI-Umfeld finden wir diese Diskussion unter der Überschrift Business Analytics.
Unter Business Analytics wird die kontinuierliche Erforschung und Untersuchung von vergangenheitsorientierten Geschäftsdaten verstanden, um darin Erkenntnisse sowohl über die abgelaufene als auch die kommende Geschäftstätigkeit zu erlangen, die wiederum in die einzelnen zu planenden Geschäftsaktivitäten einfließen [Felden 2012]. Die Kontinuität entsteht durch die regelmäßige Ausführung von Analysetätigkeiten, die sich entsprechend in einer Ablauforganisation implementieren lassen. Iterativ sind derartige Aktivitäten, weil im Analyseprozess häufig eher neue Fragen als abschließende Antworten entstehen, die letztlich zu untersuchen sind. So kann die bisherige Geschäftstätigkeit nachvollzogen werden, um Verbesserungen bei neuen Handlungen zu ermöglichen.
Letztlich ist Business Analytics ein Prozess, der aus den in der folgenden Abbildung gezeigten Schritten besteht und eng an das in Abschnitt 1.3 vorgestellte CRISP-DM angelehnt ist.
Abb. 1–1 Schritte der Business Analytics
Das fachliche Verständnis bestimmt die Auswahl der Daten, wobei dabei oftmals Rückfragen bzw. Nachbesserungen erforderlich sind, sodass fachliches Verständnis und Datenverständnis interdependent sind. Die vorliegenden Daten werden entsprechend aufbereitet in ein Modell überführt. Dabei bringt es die Modellbildung mit sich, dass die Aufbereitung neuerlich durchzuführen ist, da beispielsweise ein anderer Algorithmus als ursprünglich geplant genutzt wird. Die erzeugten Modelle sind zu evaluieren und deren Ergebnisse zur Nutzung an die jeweiligen Anwender weiterzuleiten. Die Erkenntnisse aus deren Nutzung fließen wieder als fachliches Verständnis in einen neuen Durchlauf ein.
Bereits seit Ende der 1990er-Jahre ist der KDD-Prozess (KDD = Knowledge Discovery in Databases) mit seinen Schritten der Datenauswahl, Vorverarbeitung, Transformation, Data Mining und der Ergebnisinterpretation theoretische Grundlage marktgängiger Software. Letztlich basiert auch die Business Analytics auf diesen Vorgehensschritten und erweitert diesen KDD-Prozess um eine Quellenbewirtschaftung zu Beginn und fachliche Handlung im Sinne einer zu treffenden Entscheidung und deren Durchsetzung am Ende des Prozesses. Im Weiteren wird die KDD um den Evaluationsschritt ergänzt, er dient dem Vergleich der erzeugten Modellvarianten anhand eines sogenannten Gütemaßes.
Somit liegt nun ein Prozess vor, der eine Langfristigkeit und damit eine strategische Komponente inhärent in sich birgt, da die Ergebnisse Entscheidungsgrundlage für das unternehmerische Handeln darstellen. Fachliche Analyseanforderungen und technische Komponenten zur zielgruppen- und aufgabenadäquaten Unterstützung sind in diesem Prozess gemeinschaftlich zu betrachten, um im Rahmen der Informationslogistik, also die Daten zur richtigen Zeit dem richtigen Empfänger in der richtigen Qualität zur Verfügung zu stellen [Dinter & Winter 2008], eine sinnhafte Vollautomation zu erzeugen. Das informationslogistische Verständnis der Business Intelligence, also des Prozesses, Daten zu sammeln, aufzubereiten und zur Entscheidungsfindung zur Verfügung zu stellen [Chamoni & Gluchowski 2006], mündet in der praktischen Umsetzung eher in eine Standardorientierung mit konsistenten Kennzahlen (Metriken) und Analysen. Sie ist Dashboard-basiert mit vordefinierten Berichtsstrukturen zur Beantwortung vorab definierter Fragestellungen, sodass ein indirekter Zugriff auf die multidimensionalen Strukturen, Berichte und aggregierte Daten stattfindet, was jedoch auch zu einem Exception Reporting, also dem Triggern von automatisierten Informationsbereitstellungen bei Schwellenwertüberschreitungen [Felden & Buder 2012, S. 17 ff.], weitergedacht werden kann. Business Analytics ergänzt das Business-Intelligence-Verständnis um weitere Analysen von z. B. Geschäftsaktivitäten und richtet dabei den Fokus auf die Unterstützung von interaktiven und erforschenden Analysen durch Endanwender. Das Ziel ist die Sammlung neuer Erkenntnisse und damit eine Verständnisgewinnung über vergangene Aktivitäten zur Entdeckung unbekannter Muster/Strukturen in den Datenbeständen. Dabei basiert Business Analytics auf Detaildaten, um einzelne Aktivitäten entsprechend betrachten und analysieren zu können.
Daten bzw. bereits daraus generierte Informationen zu besitzen, ist in den Unternehmen nicht mehr ein Wert an sich, vielmehr besteht der Wert darin, die Möglichkeit und Fähigkeit zu haben, Informationen aus unübersichtlichen Mengen von Daten und deren heterogenen Strukturen zu identifizieren und Entscheidungsträgern als Grundlage für unternehmerische Entscheidungen zur Verfügung zu stellen. Mit dem Fokus auf eine Datenauswertung ist dabei zwangsläufig das Thema der Business Analytics zunehmend in den Mittelpunkt gerückt. Auf dieser Basis verbindet Business Analytics moderne Verfahren der Auswertung von großen Datenvorräten, vor allem Data Mining, und maschinelles Lernen auf Grundlage der künstlichen Intelligenz und statistischer Methoden. Mittlerweile kombiniert Business Analytics einzelne Komponenten wie Kennzahlenkonzepte, Active/Realtime Warehousing, Data und Text Mining, User-Interface-Konzepte oder Systemintegration. Hierin liegt der eigentliche Nutzen; die Zusammenführung einzelner Komponenten bringt es mit sich, dass der Entscheider heute viel schneller auf Veränderungen in seinem Unternehmen oder der Unternehmensumwelt reagieren kann. Der strategische Mehrwert von Business Analytics wird damit deutlich. Entwicklungen der letzten Jahre haben das Image und den Agitationsrahmen von Business Analytics erweitert: Stichworte wie Systemintegration, Geschäftsprozessorientierung oder Benutzeroberflächendesign werden mit Business Analytics in Verbindung gebracht [Olson & Delen 2008, S. 151 ff.].
Sowohl Business Intelligence (BI) wie auch Business Analytics (BA) sind Begriffe, die am Ende einer langen Entwicklungsgeschichte der Managementunterstützungssysteme (MUS) stehen (siehe Abb. 1–2). Chronologisch wird die Genese der MUS in unterschiedliche Phasen eingeteilt, die jeweils vor dem Hintergrund der verfügbaren IT-Ressourcen zu sehen sind. Allen Phasen gemeinsam ist, dass nach Werkzeugen für eine adäquate Informationsversorgung für das Management gesucht wird. Vorrangig steht dabei die Unterstützung des Managements in der Entscheidungssituation an. Die folgende zeitliche Zuordnung ist nicht trennscharf, da sich die jeweiligen Konzepte überlagern und teilweise latent existieren. Es wird lediglich die dominante Begriffsprägung einer Epoche zugewiesen. Insgesamt stellt der Komplex MUS als Sammelbegriff aller Strömungen ein Kontinuum dar.
Abb. 1–2 Die Phasen von MIS (Phase 01) zu Business Analytics (Phase 06)
Der Begriffswandel in Business Analytics verspricht einen intensiveren Einsatz von »intelligenten« Datenanalysen, verbunden mit direkten Handlungsempfehlungen, die aus den Analyseergebnissen abgeleitet werden. Dabei wird BI nicht diskreditiert, sondern eher in den Kontext der performanten Informationslieferung und aktiven Analyse gesetzt. Hingegen verspricht Business Analytics eine Aufklärung mittels Algorithmen über bestmögliche zukünftige Handlungen. Womit bekannte Prognoseverfahren und Optimierungsrechnung (siehe Phase 2) erneut in den Fokus rücken. Die neue Qualität von Business Analytics wird in der sinnvollen Kombination von Methoden der Datenanalyse und Modellen liegen, die vor allem dem Umfeld der Data Science zuzurechnen sind. Die Konvergenz von datenorientierten und modellorientierten Verfahren scheint daher naheliegend und bringt tatsächlich neue Aspekte in die Betrachtung von MUS auf dem Zeitstrahl. Vergleichbar der Phase 2 treten Algorithmen in den Vordergrund, die automatisierte Entscheidungsprozesse ermöglichen, die auf großen polystrukturierten Datenbeständen (Big Data) in Realzeit Empfehlungen für bestmögliche Entscheidungen geben oder selbst entscheiden.