Читать книгу Data Intelligence - Manfred Kulmitzer - Страница 10

Оглавление

3. Ein zweckmässiger Überblick

In Gedanken rezitiere ich unmittelbar nach dem Aufwachen mit „Neuer Tag, neues Glück“ einen mir gut bekannten, alten Spruch und rolle mich schwerfällig aus dem Bett, wobei ich gleichzeitig meine sich sehr müde anfühlenden Knochen ausstrecke. Dabei knarzt und kracht es geräuschvoll in den Gelenken, während ich einen Blick aus dem nahen Fenster auf die schöne, ferne Alpenlandschaft werfe, die ganz langsam von der Sonne in ein leuchtendes Bordeaux-Rot gehüllt wird. Wenn schon nicht ein Versuch zur Überwindung der meist quälenden Gedanken über die weiterhin vorherrschende und die Nachrichten dominierende Krise, dann ist zumindest dieser bilderbuchhafte Frühlingsanfang ein schöner Anlass, um Altes hinter sich zu lassen.

Ich stampfe mit langsamen Schritten die vierzehn Stufen der Holztreppe zur Küche hoch und setze die Kaffeemaschine auf - immer die gleiche Routine, Wasser nachfüllen, Maschine einschalten und das grüne, blinkende Licht abwarten, dann eine Kapsel einwerfen und die heisse, braune Brühe in die weisse Tasse einlaufen lassen. Dabei betrachte ich konzentriert die sich langsam füllende Tasse, aber meine Gedanken schweifen auf bereits länger zurückliegende Ergebnisse ab.

Besonders gut besinne ich mich an das Jahr 2000 zurück und die damals stark vertretene Befürchtung, dass die Welt beim Jahrtausendwechsel aufgrund einer nicht vollständig durchdachten Speicherung der Datumsformate auf Computern ein vollständiges Chaos erleben würde. Ein griffiges Akronym dafür war schnell gefunden: Y2K aka „Year 2 Kilo aka „Year 2000“ und bald darauf in aller Munde. Fieberhaft wurde von zahlreichen Experten und Beratern dieses Problem analysiert und mit enormen Anstrengungen durch Techniker und Software-Ingenieure erfolgreich behoben. Der angekündigte Weltuntergang aufgrund falsch funktionierender IT-Systeme ist glücklicherweise vollständig ausgeblieben, aber die Angst der Menschen und Unternehmen vor einem ähnlichen Szenario ist stark ausgeprägt.

«Die Geschichte der Kommunikation ist sehr alt und die dabei genutzten Medien haben sich regelmässig an die neu verfügbaren Technologien angepasst.»

In der beständigen Evolution der Gesellschaft haben sich über einen sehr langen Zeitraum hinweg vier grundlegenden Verbreitungsarten oder Medien für die Kommunikation zwischen Menschen und die Verbreitung von Wissen entwickelt. Obschon durch Sprachforscher nicht zweifelsfrei belegbar, war vermutlich erst der moderne Mensch (Homo sapiens) dazu fähig, zu sprechen. Die Produktion und Arbeit mit Steinwerkzeugen sowie die Weitergabe dieses Wissens erfordert kommunikative Austauschformen, die ohne Sprache undenkbar sind.

Diese Fähigkeit wurde schrittweise über einen langen Zeitraum erworben und verschaffte dem Homo sapiens und seinen Nachfolgern einen markanten evolutionären Vorteil - die Hände konnte man für andere Zwecke nutzen, da man sich nicht mehr mit Gesten verständigen musste. Die Sprache wurde über die Jahrtausende immer weiterentwickelt und die benutzten Begriffe mehr und mehr ausgebaut sowie kreativ miteinander kombiniert.


Die geschichtliche Verbreitung von Wissen

Gemäss heutigem Stand der Forschung kommen die Ursprünge der Schrift aus Ägypten, Mesopotamien und China. Sie wurde primär erfunden, um den Besitzstand zu organisieren und zu wahren; also Buch zu führen und Notizen zu verfassen, die als Gedächtnisstütze dienen. Wer in Mesopotamien oder Ägypten schreiben konnte, war privilegiert, hatte ein hohes Ansehen und verfügte über ein gutes Einkommen.

«Mit verbaler Kommunikation und der mündlichen Überlieferung von Wissen konnte der Mensch erstmals seine Welt strukturieren und beschreiben.»

Mit der Erfindung des Alphabets im Jahr 1500 vor Christus und dessen Verbreitung durch die seefahrenden Phönizier wurde ein neues System eingeführt, bei dem die Laute in einzelne Buchstaben verschriftlicht wurden und durch deren Kombination die vollständige Fülle des sprachlichen Wortschatzes wiedergegeben werden konnte. Buchstaben, Zahlen und im speziellen das Binärsystem bilden eine sehr wichtige Basis für die danach erfolgte Entwicklung der modernen Informations- und Kommunikationstechnologien [21].

«Der Buchdruck markiert den Beginn der globalen Vernetzung und der immer rascheren Verbreitung von Wissen.»

Die Anfänge des Buchdrucks sind in Babylon und Rom zu finden, wo die Bücher zuerst im Blockdruckverfahren aus geschnittenem Holz seitenweise erzeugt wurden. Der uns bekannte Buchdruck mit beweglichen Lettern war eine der herausragenden Erfindungen des Mittelalters durch Johann Gutenberg unter Anwendung des Grundbegriffe-Ansatzes und hat bis heute die Kommunikationstechnologie mit allen seinen wirtschaftlichen und kulturellen Auswirkungen ausgesprochen stark geprägt.

Mit der Erfindung des Buchdrucks haben sich Bücher in wenigen Jahrzehnten in ganz Europa und in den Jahrhunderten danach über die ganze Welt ausgebreitet, was zeitgleich den Beginn der globalen Vernetzung und immer schneller fortschreitenden Verbreitung von Wissen markiert.

Kurz nach der Entwicklung der ersten kommerziell nutzbaren Computer haben die Computerhersteller ab 1960 begonnen, über eine effiziente Verarbeitung ihrer unterschiedlichen Input-Daten nachzudenken. Dabei sprach man von Rohdaten, die zuerst physisch als Lochkarten gestapelt, und später elektronisch auf Magnetbändern gespeichert sowie auf Trommelspeichern oder Festplatten für die eigentliche Weiterbearbeitung zur Verfügung gehalten wurden.

Beginnend in 1970 wurde die Vernetzungs- und Kombinationsmöglichkeiten von elektronischen Daten durch relationale Datenbank-Modelle zusätzlich erhöht und mit einer leicht verständlichen Abfrage-Sprache (Structured Query Language aka SQL) erweitert [22].

Diese massive Ausweitung der Nutzungsmöglichkeiten von elektronischen Daten führte bereits Ende 1970 zu einer intensiven Debatte über den Datenschutz, um Menschen die Selbstbestimmung über deren Datennutzung zu ermöglichen. Durch die vermehrte Nutzung des Internets und sozialer Medien wurde ab Mitte der 1990er Jahre eine weitere massive Erhöhung der Verfügbarkeit, Beweglichkeit und Vernetzung der elektronischen Daten erzielt. Daraus sind neben der hoch spezialisierten Industrie der Datenanalysen ebenfalls der stark vermehrte Einsatz von Künstlicher Intelligenz - also das Training und die Auswertung von selbstlernenden Algorithmen - entstanden.

«Auf jedes der genannten Kommunikationsmedien hat sich der Mensch und die gesamte Gesellschaft strukturell und kulturell jeweils neu anpassen müssen.»

Somit bestimmen heute die elektronischen Daten im Rahmen von Data Science auch die Arbeitsweise jener (automatisierten) Werkzeuge, mit denen sie verarbeitet und analysiert wurden. Die schiere Fülle an verfügbaren elektronischen Daten in Form von Big Data führt daher zu neuen gesellschaftlichen Kommunikationsformen, einer rasanten Verbreitung von Wissen sowie datengetriebenen Prozessen und der Entwicklung völlig neue, datenzentrischer Geschäftsmodelle.

Seit der Erfindung des ersten iPhone durch Apple im Jahr 2007 treiben verschiedene technologische Megatrends - wie Big Data, Cloud [31], Plattformen für soziale Medien, Künstliche Intelligenz und Data Science - die Digitalisierung und sowie die Erzeugung und Verarbeitung von elektronischen Daten massiv und immer rascher werdend voran.

Der digitale Wandel bedeutet, dass nicht nur neue, innovative Lösungen für komplett neue Problemstellungen gefunden werden müssen, sondern ebenfalls neue oder verbesserte Lösungen für bestehende Aufgaben, die vorherige Gesellschaften bereits erfolgreich gelöst haben.

Ein gutes Beispiel dafür stellt den technischen Übergang von Schallplatten zu Audio-CDs und dann von Audio-CDs zu Musik-Streaming-Diensten dar. Zu all diesen Zeitpunkten mussten innovative Menschen bereits vorhandene und funktionierende, technische Lösungen für eine bestehende Aufgabe - in diesem Fall „Musik hören“ - adaptieren oder neu entwickeln.

Es handelt sich beim digitalen Wandel - und bei der Digitalisierung - nicht nur um eine rein technologische Adaption, sondern um einen Paradigmenwechsel für die Menschen und damit die Gesellschaft. Ich sehe den digitalen Wandel nicht als rein technologisches Phänomen, sondern will diesen als gesellschaftliche Chance begreifen und beschreibe daher in diesem Buch die dafür notwendigen intellektuellen, kulturellen und emotionalen Transformationen.

3.1 Ein feiner, aber wichtiger Unterschied

Umgangssprachlich wird leider oft zwischen „Daten“ und „Informationen“ keinerlei Unterschied gemacht und die Begriffe Fakten oder Daten sowie Daten oder Informationen oder Wissen werden beliebig miteinander vermischt. Im alltäglichen Gebrauch, beispielsweise in Tageszeitungen oder sozialen Medien, wird der Begriff „Information“ gerne für die Darstellung von Meinungen oder „Wissen“ genutzt.

Das Wort „Fakten“ wird in diesem Zusammenhang ebenfalls gerne genutzt, jedoch hat dieser Begriff in der Informationstechnologie eine klare, festgelegte Bedeutung für die Repräsentation von einfachen, digitalen Inhalten als die kleinste, sinnvoll speicherbare Einheit auf Computersystemen. Im Daten- und Informationsmanagement muss es aber für diese Begriffe eine klare Unterscheidung und Definition geben, was vor allem im Rahmen der später beschriebenen Datenbereitstellung eine wichtige Rolle spielt. Für mich ist es in diesem Buch daher essenziell, die Abhängigkeiten zwischen Fakten, Daten und Informationen darzustellen und die Grundbegriffe konkret zu beschreiben:


Zusammenhänge von Fakten, Daten, Informationen und Wissen

Um Daten überhaupt elektronisch nutzen zu können, müssen zuerst die dazugehörigen Fakten auf einem Speichermedium abgelegt, das heisst elektronisch gespeichert werden. In der Regel ist dies eine Tabelle mit einer oder mehreren Spalten, die meistens in einer Datenbank definiert und gespeichert werden. Jede Zelle in einer Spalte steht dabei für einen bestimmten Fakt und die ganze Spalte für ein Set dieser Fakten.

Durch die dazugehörigen Spaltenüberschriften (den Labels) wird den Fakten (also den Spalten) eine Bedeutung zugeordnet, was diese zu Daten macht. Beispielsweise würde man einen vollständigen Namen mit drei Spalten in einer Tabelle namens „Vollständige Namen“ definieren: Die erste Spalte mit dem Label „Anrede“, eine zweite Spalte mit dem Label „Vorname“ und die dritte Spalte mit dem Label „Nachname“.

Dann können die dazugehörigen Zellen der Spalten jeweils zeilenweise gefüllt werden, beispielsweise mit „Herr“ und „Manfred“ und „Kulmitzer“. Man hätte in der ersten Zeile dieser Tabelle meinen vollständigen Namen in drei Spalten als ein Datum abgelegt und dieses Datum nennt man „Datensatz“ in der Informationstechnologie.

Hingegen dienen Informationen als Grundlage für eine Entscheidung und stellen jene Erkenntnisse dar, die sich aus der Interpretation von Daten oder aus der Kombination von unterschiedlichen Daten ergeben. Die Abfragen dafür erfolgen meist in einer leicht verständlichen Abfrage-Sprache - oft kommt hier eine Structured Query Language aka SQL zur Anwendung - und können natürlich sehr kompliziert sein, was im Alltag mit umfangreichen Datensammlungen öfter der Fall ist.

Im oben beschriebenen Beispiel könnte man die Tabelle „Vollständige Namen“ auf eine bestimmte Eigenschaft durchsuchen, beispielsweise nach „Vorname = Manfred“. Als Information würde man dann i) entweder alle Zeilen angezeigt bekommen oder ii) die Anzahl von Zeilen erhalten, welche in der Spalte „Vorname“ den Eintrag „Manfred“ haben.

Als Resultat ergeben sich aus dieser simplen Anfrage zumindest zwei Informationen, die man entsprechend auswerten kann. Um Informationen nutzen zu können, sind die folgenden zwei Fragen zu beantworten: „Welche Daten liegen heute wo in welcher Form?“ und „Wie sollen diese Daten von wem genutzt werden?“

«Menschen lernen bis auf wenige Ausnahmen nicht durch Belehrung, sondern - wenn überhaupt - aus eigenen Erfahrungen.»

Als Wissen wird üblicherweise ein für Personen oder Unternehmen verfügbarer Bestand von Fakten, Theorien und Regeln verstanden, die sich durch den höchstmöglichen Grad an Gewissheit auszeichnen, so dass von ihrer Gültigkeit bzw. Wahrheit ausgegangen wird. Unternehmenswissen beziehungsweise dessen Speicherung gilt als Unternehmensgut, analog dazu gilt das Wissen einer Gesellschaft als Kulturgut [27].

In meinem Buch beziehe ich mich meist auf Unternehmen, deshalb vereinfache ich hier das speziellere „Unternehmenswissen“ zum allgemeinen Grundbegriff „Wissen“. Nachstehend zeige ich die Definitionen und Beschreibungen dieser wichtigen Grundbegriffe im Kontext vom Daten- und Informationsmanagement auf, welche ebenfalls im Glossar nachzulesen sind.

Meine Definition von Fakten

Im Daten- und Informationsmanagement repräsentieren Fakten einfache, digitale Inhalte ohne Zuordnung einer Bedeutung. Der Inhalt wird dazu meist als Ziffern, Zeichen, Zeichenketten oder ähnliches kodiert und deren Aufbau folgt definierten Regeln, das heisst einer festgelegten Syntax. Fakten können in verschiedenen Erscheinungsformen bzw. Medien vorliegen und lassen sich zum Zweck der elektronischen Datenverarbeitung als Zeichensätze kodieren und speichern.

1. Beispiel: In einer Tabelle stellt ein Fakt genau eine Zelle dar und eine Anzahl von gleichen Fakten genau eine Spalte.

2. Beispiel: Ein Fakt kann die Zahl „1967“ (wobei hier nicht klar ist, ob diese Zahl beispielsweise ein Geburtsdatum oder eine Postleitzahl darstellen soll) sowie die Zeichenfolge „Grad Celsius“ oder „Stefan“ repräsentieren.

Meine Definition von Daten

Im Daten- und Informationsmanagement bestehen Daten aus einer, für Computer bearbeitbaren und lesbaren Kombination von Fakten mit einer spezifischen Bedeutung (auch „Label“ genannt), in der Regel aus der Kombination von zwei Fakten mit deren Bedeutung. Daten können in strukturierte, semi-strukturierte und unstrukturierte Datenarten unterteilt und entsprechend ihrer Ausprägung unterschiedlich kodiert und gespeichert werden.

Daten entstehen im Verlauf der Geschäftstätigkeit (beispielsweise die Erfassung von Kundendaten und Aufträgen, die Abwicklung von Aufträgen, die Produktion und Lieferung von Produkten) eines Unternehmens und dienen dem Nachweis derselben.

Überdies entstehen Daten ebenfalls durch die Digitalisierung von bestimmten analogen Inhalten, beispielsweise entsteht durch den Scan eines Fotos eine entsprechende elektronische Datei des Fotos zur Weiterverarbeitung.

«Übrigens, der Begriff Daten ist der Plural von Datum.»

1. Beispiel: In einer Tabelle stellt ein Datum genau eine Spalte dar und die dazugehörige Spaltenüberschrift (der „Label“) legt die spezifische Bedeutung dieser Spalte und somit des Datums fest. Mit der Überschrift „PLZ“ wird also eine Spalte mit Postleitzahlen festgelegt.

2. Beispiel: Die für sich allein stehende Zahl „1967“ stellt noch keine Aussage dar; erst durch die Zuordnung einer spezifischen Bedeutung (beispielsweise in der Spaltenüberschrift einer Tabelle) wird daraus ein verständliches Datum und könnte entweder das „Geburtsjahr“ (1967) oder die „Postleitzahl“ (1967 für Sion, Schweiz) darstellen.

3. Beispiel: Die Zahl „21“ in Kombination mit der Temperatureinheit „Grad Celsius“ hat als Datum die spezifische Bedeutung für die Temperaturangabe „21 Grad Celsius“.

Meine Definition von Informationen

Im Daten- und Informationsmanagement dienen Informationen der Entscheidungsfindung, indem sie jene Erkenntnisse darstellen, welche sich aus der (kausalen) Interpretation von meist gebündelten Daten ergeben, können in strukturierter und teilweise auch in semi-strukturierter Form vorliegen und gespeichert werden.

Die Bündelung erfolgt dabei über die Vernetzung oder Kombination der verschiedenen (elektronischen) Daten und oft unter Zuhilfenahme einer leicht verständlichen Abfrage-Sprache (Structured Query Language, SQL).

Die Interpretation erfolgt manuell oder automatisiert und durch von Menschen oder Algorithmen festgelegte Regeln mit dem Ziel, die gebündelten Daten in einen entsprechenden Kontext zu stellen und damit (neue) Erkenntnisse zu erzielen.

Hierzu zeige ich ein einleuchtendes Beispiel auf: Durch die Bündelung der richtigen Daten kommt man zur Erkenntnis „Die durchschnittliche Temperatur in Meran im Mai ist 21 Grad Celsius“. Mit dieser Information kann nun entschieden werden, ob man dort Urlaub im Mai (= Kontext) machen möchte oder nicht.

Meine Definition von Wissen

Im Daten- und Informationsmanagement dient Wissen der erweiterten Entscheidungsfindung, indem es neue Erkenntnisse aus der Geschäftstätigkeit berücksichtigt, welche sich aus der Verknüpfung und Interpretation von internen und externen Informationen ergeben. Werden nun diese Informationen in einem bestimmten Kontext betrachtet, entsteht daraus Wissen.

Das hierbei gespeicherte Wissen gilt als Unternehmensgut, welches in strukturierter, semi-strukturierter und ebenso in unstrukturierter Form als Daten vorliegen kann.

Dazu ein kleiner philosophischer Diskurs: Einer - in der Philosophie stark vertretenen - These zufolge ist Wissen eine wahre, gerechtfertigte Überzeugung. Zunächst kann man nur dann etwas wissen, wenn man eine entsprechende Meinung hat. Eine Meinung ist jedoch nicht hinreichend für Wissen. So kann man etwa falsche Meinungen haben, jedoch kein falsches Wissen. Wissen kann also nur dann vorliegen, wenn man eine wahre Meinung hat. Doch nicht jede wahre Meinung stellt Wissen dar. Daher wird von vielen Philosophen argumentiert, dass eine wahre Meinung gerechtfertigt sein muss, wenn sie Wissen darstellen soll.

«Nun haben wir ein gemeinsames Verständnis, können Daten von Informationen klar unterscheiden und dabei entsteht ebenfalls Wissen.»

Im Rahmen des digitalen Wandels stellen Daten und Informationen somit die wesentlichsten Grundelemente dar, da diese eben jene digitalen Inhalte repräsentieren, welche für den Paradigmenwechsel der Gesellschaft und die neuen Geschäftsmodelle absolut erforderlich sind. Eine Zukunft ohne elektronische Daten und Informationen sowie digitale Dokumente wird es aus meiner Sicht nicht geben - ausser man verlässt die Zivilisation und begibt sich in völlige Isolation. Deshalb sollte jeder Mensch die entsprechenden Grundlagen zu Daten und Informationen verstehen und beherrschen können.

3.2 Intelligente Datensammlung mit «Smart Data»

Der digitale Wandel verändert das Daten- und Informationsmanagement von allen Unternehmen, die bereits datengetriebene Prozesse oder sogar datenzentrische Geschäftsmodelle nutzen, oder dies in Zukunft anstreben. Dabei ist meiner Meinung nach nicht mehr die möglichst grosse, umfassende oder komplette Sammlung von Daten entscheidend, sondern die intelligente Bereitstellung von «Smart Data» unter einer einheitlichen, zentralen Daten-Governance.

«Die Zukunft wird uns von schnöden Datensammlungen weg und hin zu Smart Data führen.»

Der Large Hadron Collider (LHC) ist einer der weltweit grössten Teilchenbeschleuniger und befindet sich am Europäischen Zentrum für Kernforschung CERN bei Genf in der Schweiz. Bei den sogenannten „Colliding Beam“ Experimenten werden in einem 26.7 Kilometer langen, unterirdischen Ringtunnel die erzeugten Protonen gegenläufig auf nahezu Lichtgeschwindigkeit beschleunigt und zur Kollision gebracht.

Dabei entstehen eine Milliarde Kollisionen pro Sekunde und es fallen circa ein Petabyte (dies entspricht 1015 Bytes) Daten pro Sekunde an!

Heute ist noch kein Computersystem der Welt fähig, diese unglaublich grossen Datenmengen in Echtzeit aufzuzeichnen, deshalb müssen die Daten vor der Speicherung gefiltert werden, wobei noch immer ein Petabyte an Daten täglich anfällt [23].

Damit man sich diese unglaublichen Datenmengen vorstellen, zähle ich hier ein paar Beispiele von Speichergrössen und dazugehörigen Grössenordnungen auf:


Beispiele zur Grössenordnung von Daten

Mit meinem allerersten Personal Computer aka PC im Jahr 1987 konnte ich maximal 360 Kilobyte Daten auf einer Floppy-Disk mit einem Durchmesser von 5.25 Zoll speichern - für all jene, die sich daran erinnern mögen: dies war die Grösse einer analogen Single-Schallplatte.

Die schon längst wieder aus der Mode gekommene Compact Disk aka CD aus dem Jahr 1982 konnte bereits 650 Megabyte an Daten aufnehmen und ein Gigabyte lässt sich auf zwei (2) CDs gut abspeichern. Ein Terabyte Daten entspricht 1.000 Gigabytes und für diese Datenmenge benötigt man über 1.500 CDs zur Speicherung.

Dahingegen entspricht ein Petabyte Daten bereits 1.000 Terabyte und erreicht als gestapelter Datenturm aus solchen CDs die stattliche Höhe von 1.850 Metern. Wenn ein Reiskorn ein Byte darstellen würde, dann könnte man mit einem Petabyte die gesamte Insel Manhattan der Stadt New York vollständig mit Reiskörnern bedecken.

Mit heutigem Stand verarbeitet Facebook täglich ungefähr vier (4) Petabyte und der Google-Konzern täglich circa 24 Petabyte an Daten.

«Weltweit wurden im vergangenen Jahr insgesamt 16 Zettabyte an Daten produziert.»

Ein Zettabyte Daten entspricht 1021 Bytes oder 1.000.000 Petabyte. Um eine Vorstellung davon zu bekommen und beim Vergleich mit den Reiskörnern zu bleiben: Mit einem Zettabyte könnte der gesamte pazifische Ozean mit Reis gefüllt werden und 16 Zettabyte würden unseren Mond zu 80 Prozent mit Reis ausfüllen.

Gemäss einer gemeinsamen Studie [24] der International Data Corporation (IDC) mit dem Festplattenhersteller Seagate betrug im Jahr 2018 das gesamte globale Datenaufkommen 33 Zettabytes und wird bis zum Jahr 2025 auf ein weltweites Datenvolumen von 175 Zettabyte ansteigen.

Es sollen zu diesem Zeitpunkt ein Drittel von diesen Daten in Echtzeit aka Real-time verarbeitet werden können. Im Vergleich mit den Reiskörnern ausgedrückt, entspricht dies beinahe neun (9) vollständig mit Reis gefüllten Monden.

Nun könnte man denken, dass die Nutzung von Internet und sozialen Medien durch Privatanwender für diesen rapiden Anstieg verantwortlich sind - aber mitnichten: Waren die Unternehmen laut der Studie im Jahr 2015 noch zu einem Drittel an der weltweiten Datengenerierung beteiligt, wird ihr Anteil in den kommenden Jahren rund 60 Prozent ausmachen und damit die heute dominierenden Privatanwender weit hinter sich lassen.

«Viele Unternehmen haben schon längst mit Big Data zu tun.»

Schon heute haben zahlreiche Unternehmen - allen voran die Finanzdienstleister wie Banken und Versicherungen - eine enorme Menge an Daten und Informationen im Ausmass von vielen Petabytes vorliegen und sollten daher längst mit Big Data umgehen können.

Nach meinem Verständnis bezeichnet der Begriff Big Data die riesige, vielfältige und heterogene Menge an digitalen Daten, welche täglich in immer grösserer Geschwindigkeit erzeugt, gespeichert und genutzt werden.

Diese grossen Datenmengen lassen sich mit herkömmlichen IT-Systemen jedoch nicht mehr effektiv verarbeiten - dies startet bereits bei den noch nicht aggregierten Rohdaten, bei denen es oft unmöglich ist, diese im Speicher eines einzelnen Computers abzulegen.

Überdies wird Big Data oft als Sammelbegriff für digitale Technologien verwendet, die in technischer Hinsicht für eine neue Ära digitaler Kommunikation und Datenverarbeitung und in sozialer Hinsicht für einen gesellschaftlichen Umbruch verantwortlich gemacht werden.

Meine Definition von „Big Data“

Die Literatur bezieht sich in der Definition von Big Data meist auf die vier Dimensionen des englischsprachigen „V“: Volume, Velocity, Variety und Veracity. Ich habe diese Dimensionen für meine Betrachtungen entsprechend ergänzt sowie betreffend fachlicher Fragegestellungen und technischer Aspekte gruppiert.

Die von mir angedachten, sechs (6) wesentlichen Charakteristiken von Big Data habe ich entsprechend aufgeteilt - fachliche Fragestellungen werden adressiert durch Value, Veracity, Variety und Variability, und die technischen Aspekte vor allem durch Velocity und Volume.

Diese fachliche und technische Aufteilung der Charakteristiken von Big Data zeigt die nachstehende Grafik:


Die wesentlichen Charakteristiken von „Big Data“

Die vier Charakteristiken für fachliche Fragestellungen sind:

Value (= Wert) beschreibt den Nutzen von oder die Wertschöpfung durch sehr grosse Datenmengen für das Unternehmen.

Veracity (= Unsicherheit) beschreibt die Wahrhaftigkeit oder Richtigkeit von Daten.

Variety (= verschiedene Datenformen) beschreibt die Vielfalt an Datenquellen und die Vielfalt an Datenarten (strukturiert vs. unstrukturiert).

Variability (= Veränderlichkeit) beschreibt die Veränderlichkeit der Daten sowie Datenarten im zeitlichen Verlauf (Batch, Periodisch, Near-Real-time, Echtzeit).

Die beiden Charakteristiken für technische Aspekte sind:

Volume (= Datengrösse) beschreibt den Umfang der anfallenden Datenmengen bzw. die Anzahl der anfallenden Dateien.

Velocity (= Tempo des Wandels) beschreibt die Geschwindigkeit, mit welcher verschiedene Datenarten neu erzeugt werden.

«Es gibt eine smarte Analogie von Markt und Informationsmanagement.»

Damit die grossen, stark wachsenden Datenmengen in Zukunft effektiv gespeichert, verarbeitet und genutzt werden können, benötigt es neue Ansätze sowohl für die Datenbereitstellung als auch für die Datennutzung. Das von mir in diesem Buch vorgestellte, moderne Daten- und Informationsmanagement legt den Fokus genau auf diese Bedürfnisse.

Im klassischen Markt wird ein ausgeglichenes Gleichgewicht zwischen Angebot und Nachfrage angestrebt. Übersteigt das Angebot die Nachfrage, sinkt der Preis der Produkte und gleichzeitig steigen die Kosten für deren Lagerung. Ist die Nachfrage hingegen höher als das Angebot, steigt der Preis und die Kunden müssen länger auf ihre gewünschten Produkte warten. Diese Zusammenhänge zeige ich in der nachstehenden Grafik:


Eine Analogie von Markt und Informationsmanagement

Dieses Prinzip gilt in Analogie auch für Daten:

Die Sammlung, Aufbereitung und Speicherung von Daten verursacht primär Kosten, deshalb sind möglichst nur jene Daten bereitzustellen, die tatsächlich benötigt werden. Andererseits sollen die Kunden nicht auf (neue) Datenlieferungen warten müssen, um kurzfristig erforderliche Auswertungen oder Datenanalysen machen zu können.

Also ist es erforderlich, ein möglichst ausgewogenes Gleichgewicht von erforderlichen Kosten für die Datenbereitstellung und dem gewünschten Ertragspotenzial der Datennutzung zu erreichen.

Daher gilt das Prinzip von Angebot und Nachfrage im klassischen Markt analog für ein modernes Daten- und Informationsmanagement, wo die Erträge durch die Datennutzung die durch die Datenbereitstellung verursachten Kosten in jedem Fall übersteigen sollen. Dies wird in der nachstehenden Grafik dargestellt:


Betrachtung von Ertragspotenzial vs. Kosten

Die obenstehende Grafik illustriert für ein heutiges Szenario im Jahr 2020 und einen hypothetischen Zielzustand im Jahr 2025 die folgenden beiden Aussagen:

• Durch verbindliche Ziele zur Effizienzsteigerung und Optimierung der Datenbereitstellung sollen die Gesamtkosten nicht linear oder überproportional trotz des erwarteten, stark wachsenden Datenvolumens ansteigen.

• Das gewünschte Ertragspotenzial kann durch gezielte Investitionen in erweiterte und neue Fähigkeiten der Datennutzung - beispielsweise unter vermehrter Nutzung von Data Science und Künstlicher Intelligenz sowie eine mögliche Monetarisierung von Daten - entsprechend erhöht werden.

Die Nutzung von Big Data und in weiterer Folge von «Smart Data» erfordert einen revidierten Umgang mit Daten und Technologien. Neue Möglichkeiten aus organisatorischer, prozessualer und technischer Sicht müssen analysiert und gebündelt werden und sind in geeigneten IT-Infrastrukturen umzusetzen. Den Rahmen hierfür setzt eine datenzentrische Datenstrategie, auf deren Entwicklung später in diesem Buch eingegangen wird.

Das in diesem Buch beschriebene, moderne Daten- und Informationsmanagement legt einen wesentlichen Schwerpunkt auf die intelligente Datenbereitstellung und schafft die Grundlagen für eine effektive und nachhaltige Datenbewirtschaftung. Damit ist gemeint, einen optimalen Datenlebenszyklus zu definieren und die Datensammlung, Datenspeicherung, Datenbereinigung, Datenharmonisierung und Datenlöschung so zu optimieren, dass man eine Reduktion auf die wirklich benötigten Daten im Sinne von «Smart Data» erzielt.

«Für eine intelligente Datennutzung bedingt es hinkünftig zusätzlich Smart Data.»

Ausserdem sollen die effektive Datennutzung mit neuen Methoden und Technologien unterstützt sowie rechtliche und organisatorische Vorgaben eingehalten werden können. Der Begriff «Smart Data» selbst wird häufig mit dem Internet der Dinge und den Daten, welche die Sensoren in diesen Geräten produzieren, assoziiert. Nach meinem Verständnis sind «Smart Data» elektronische Daten, die so aufbereitet sind, dass daraus unmittelbar verwertbares Wissen abgeleitet werden kann.

Diese Daten sollen genutzt werden, um aus Rohdaten neue Erkenntnisse zu gewinnen, Daten intelligent zu speichern oder aufzubereiten oder um neue Modelle für die Datenanalyse im Rahmen von Data Science zu schaffen. Dazu werden die Rohdaten direkt an der jeweiligen Datenquelle gesammelt, geordnet, analysiert und für den Datenkonsumenten vorbereitet, häufig unter Nutzung der Technologien für Big Data und Fast Data.

Nach dieser intelligenten Aufbereitung können die Daten an die jeweils nachgelagerten Daten-Plattformen für eine weitere Datenkonsolidierung oder für direkte Datenanalysen im Unternehmen verteilt werden. Die Verteilung von «Smart Data» im Unternehmen geschieht im idealen Fall über eine zentral gesteuerte Datenorchestrierung oder Datenvirtualisierung aller Daten in der Datenlandschaft.

Somit stellen «Smart Data» eigenständige Datenbestände dar, die verwertbare Daten mittels Algorithmen nach bestimmten, vorgegebenen Strukturen aus meist sehr grossen Datenmengen extrahieren und nur „sinnvolle“ Daten enthalten. Dabei müssen die Daten vom Endbenutzer verstanden werden können, um ein sinnvolles Ergebnis erzielen zu können. Daher sind die Semantik der Daten aus einem fachlichen Datenmodell, die Datenqualität, die Informationssicherheit und natürlich der Datenschutz und die Datenethik zu beachten.

«Die Nutzung von Smart Data ermöglicht neue, innovative Lösungen für Datenspeicherung und Data Science.»

Gegenwärtig werden die meisten Analysen per Batch-Verarbeitung ausgeführt, wobei die Daten nach einem bestimmten Zeitplan erfasst, in den gewünschten Zustand transformiert, in eine Datenbank kopiert und dann über Nacht verarbeitet werden. Der wesentliche Nachteil dieses Ansatzes ist, dass die Daten bereits alt sind, wenn sie analysiert werden.

Im Gegensatz dazu überwacht ein Streaming Analytics alle in Echtzeit erzeugten Daten direkt an der Datenquelle, erfasst wichtige Ereignisse, bewertet Ausnahmen, trifft eine Entscheidung und teilt die Ausgabe mit anderen IT-Applikationen - alles innerhalb sehr kurzer Zeit.

Im IoT Umfeld hat die Möglichkeit, Daten direkt an der Quelle verarbeiten zu können, eine enorme Bedeutung: Beispielsweise kann ein autonomes Fahrzeug, welches auf ein Hindernis trifft, nicht erst die Daten an eine Cloud senden und dann warten, bis das ausgewertete Ergebnis zurückkommt. Es hat schlicht nicht die Zeit, auf den Befehl für eine Ausweichhandlung zu warten. Die Auswertung muss deshalb sofort und vor Ort erfolgen. Dazu müssen alle über die Sensoren erfassten Daten intelligent sein, damit diese unmittelbar von den Prozessoren des Automobils analysiert werden können. Alle Ergebnisse müssen unmittelbar an die Bedienungselemente gesendet werden, welche die Bremsen und das Lenkrad des Fahrzeugs steuern. Falls die Daten nicht in einer Form vorliegen, die sofort analysiert werden kann, können die Folgen fatal sein.

Smart Data können genutzt werden, um aus Rohdaten neue Erkenntnisse zu gewinnen, Daten intelligent zu speichern oder aufzubereiten oder um neue Modelle für die Datenanalyse im Rahmen von Business Intelligence oder zukünftig auch Data Science zu schaffen. Für viele Unternehmen wird es jedoch eine herausfordernde Aufgabe darstellen, die vorhandenen Datenbestände sowie die Datenlandschaft und IT-Applikationen entsprechend zu gestalten, um den Einsatz von «Smart Data» zu ermöglichen und dessen Vorteile umfassend nutzen zu können.

3.3 «Data Intelligence» ist die Zukunft

Dieser Megatrend ist offensichtlich: Daten sind überall und sie werden in und ausserhalb der Unternehmen sowie im Internet und immer häufiger durch smarte IoT-Geräte erzeugt und genutzt. Diese Daten werden durch Milliarden von Computer-Anwendern und Maschinen erzeugt, liegen in den verschiedensten Formen und Formaten vor und sind in allen möglichen Orten als isolierte oder bereits teilweise integrierte Datensammlungen gespeichert.

Aber wer kann nun bereits alle diese Daten nutzen? Deswegen sollte die Weiterentwicklung des Daten- und Informationsmanagement für alle Unternehmen, die ihre Wettbewerbsfähigkeit im Rahmen des digitalen Wandels erhalten oder steigern wollen, zu einer der wichtigsten Prioritäten werden - und so kommt die «Data Intelligence» ins Spiel:


Der digitale Wandel und die Wettbewerbsfähigkeit

Durch den Einsatz von «Data Intelligence» können Unternehmen die richtigen Daten, Informationen und Erkenntnisse sowie Datenanalysen, KI-Algorithmen und Menschen miteinander verbinden, um für alle Datenproduzenten und Datenkonsumenten die Effizienz zu steigern, Prozesse zu optimieren und Innovationen voranzutreiben. Somit transformiert ein Unternehmen das klassische Datenmanagement in eine transparente «Data Intelligence» unter Einhaltung von Datenschutz, Informationssicherheit sowie Berücksichtigung der Datenethik und darüber hinaus die bestehende Unternehmenskultur in eine „Datenkultur“.

«Der Einsatz von Data Intelligence wird für viele Unternehmen zukünftig essenziell sein.»

Mit «Data Intelligence» möchte ich im sprichwörtlichen Sinne an die von den Nachrichtendiensten seit dem Kalten Krieg (1947-1989) praktizierte „Aufklärungsarbeit“ anknüpfen. Beispielsweise steckt in der Abkürzung CIA für den amerikanischen Auslandsnachrichtendienst „Central Intelligence Agency“ das Wort „Intelligence“ und damit ist tatsächlich auch die „Aufklärung“ - also die Gewinnung - von vertraulichen oder unbekannten Informationen, meist von fremden Mächten, gemeint.

Ich verstehe unter «Data Intelligence» die Kombination der smarten Bereitstellung und Orchestrierung von «Smart Data» in alle Unternehmensbereiche mit der intelligenten Nutzung von Data Science und KIFähigkeiten zur bestmöglichen Generierung von neuen Unternehmenswissen, um datengetriebene Prozesse zu unterstützen sowie datenzentrische Geschäftsmodelle zu realisieren.

Das klingt leider recht kompliziert, nicht wahr? Also beschreibe ich in diesem Buch die notwendigen Grundlagen und definiere alle dazugehörigen Grundbegriffe, hinterlege dies mit Beispielen aus der Praxis und schaffe die zuvor beschriebene Kombination von Datenbereitstellung und Datennutzung.

Dafür möchte ich mit dieser vereinfachten Grafik als ersten Überblick beginnen, selbst wenn noch nicht alle Begriffe bereits klar sein sollten:


Erforderliche Bausteine für «Data Intelligence»

Die Daten und Daten-Streams - also alle Rohdaten des Unternehmens - entstehen in den Geschäftsprozessen und im Internet sowie durch smarte IoT-Geräte.

Als erstes müssen die operativen Daten aus allen benötigten Quellen gesammelt werden - in Erweiterung zu den internen Data Stores auch die externen Daten in deren vielfältigen Formaten (neben PDF und Excel) sowie lokale Bewegungsdaten bis hin zu Daten aus den sozialen Medien (Facebook, LinkedIn, Google & Co.).

Dazu kommen noch die Daten-Streams von smarten IoT-Geräten und Maschinen mit der zugehörigen Stream-Verarbeitung, welche sich für die Echtzeit-Überwachung und für Reaktionsfunktionen auszeichnet.

Bei der Sammlung von Daten für «Data Intelligence» suchen Unternehmen nach einer Vielzahl von Quellen, zu denen geschäftliche Leistungskennzahlen, das Data Mining von Datenkonsumenten und Datenproduzenten, die Kunden und andere beschreibende Datenquellen gehören. Für eine intelligente Datenbereitstellung werden die gesammelten internen und externen Daten als eigenständige Datenbestände benötigt, die so aufbereitet sind, dass nur jene Daten und Informationen, aus denen unmittelbar verwertbares Wissen abgeleitet werden kann, gesammelt und gespeichert werde - es braucht also «Smart Data», wie zuvor beschrieben.

Die Transformation von Daten in «Smart Data» erfolgt, indem die Rohdaten direkt an der jeweiligen Datenquelle - das sind die operativen IT-Systeme, die externen Datensammlungen und die internen oder externen Daten-Streams sowie die Ergebnisse der dispositiven, analytischen IT-Anwendungen - gesammelt, geordnet, analysiert und reduziert werden.

«Smart Data» stellen eigenständige Datenbestände dar, die verwertbare Daten mittels Algorithmen nach bestimmten, vorgegebenen Strukturen aus meist sehr grossen Datenmengen extrahieren und nur „sinnvolle“ Daten enthalten.

Die Speicherung aller Rohdaten erfolgt an einer zentralen Stelle (dem Data Lake), wo externe Daten und die Daten-Streams aus allen möglichen Quellen (smarte IoT-Geräte, soziale Medien) gesammelt werden. Auch der Data Lake wird im Sinne von «Smart Data» aufbereitet.

Durch den Einsatz von Fähigkeiten der Data Science und Künstlichen Intelligenz wird im Rahmen der Datenanalyse das gewünschte Unternehmenswissen als dispositive Daten generiert, indem aus den Rohdaten neue Erkenntnisse gewonnen oder neue, datenzentrische Geschäftsmodelle entwickelt werden.

Die Ergebnisse werden ebenfalls als «Smart Data» aufbereitet und im Data Warehouse oder aus Performancegründen zudem in Data Marts gespeichert. Nach dieser intelligenten Aufbereitung können die Daten an die jeweils nachgelagerten Daten-Plattformen für eine weitere Datenkonsolidierung oder für direkte Datenanalysen im Unternehmen verteilt werden.

Die Verteilung von «Smart Data» im Unternehmen geschieht im idealen Fall über eine zentrale, intelligente Datenorchestrierung oder Datenvirtualisierung aller Daten in der Datenlandschaft in Kombination mit einem Regelwerk (Rule Engine) zur smarten Optimierung der Datenorchestrierung. Zudem hilft «Smart Data» bei der Beschleunigung von Datenanalysen, indem die Daten ordentlich und in bessere Strukturen angeordnet und effizientere Modelle für die Speicherung und die Bereinigung von grossen Datenmengen erstellt werden können.

«Das (Unternehmens-) Wissen aufbereitet und einfach zur Verfügung zu stellen, wo immer man es haben will, das ist Data Intelligence.»

Somit stellt man den Datenkonsumenten intelligente, relevante und kontextbezogene Erkenntnisse zur Verfügung und verarbeitet dafür Daten aus der gesamten Datenlandschaft, die als «Smart Data» optimal gespeichert im Unternehmen vorliegen. Im Rahmen der Datenanalysen findet und verknüpft man unterschiedlichste Datentypen, unabhängig davon, wo die Daten tatsächlich gespeichert sind und kann zudem sämtliche von den IoT-Geräten und Maschinen gelieferten Daten und Daten-Streams verwenden.

«Data Intelligence» bezieht sich auf alle Analysemethoden und Analysewerkzeuge, welche ein Unternehmen einsetzt, um ein besseres Verständnis über die Daten und Informationen zu erlangen, die man zur Verbesserung der Produkte und Dienstleistungen sammelt.

Heute umfasst «Data Intelligence» neben den bekannten Werkzeugen aus der Business Intelligence ebenfalls die Methoden der Künstlichen Intelligenz mit Machine Learning, welche es Unternehmen ermöglichen, enorme Datenmengen viel schneller und zuverlässiger zu analysieren, als dies manuell möglich wäre.

Im Gegensatz zur Business Intelligence, welche sich mehr auf die Organisation von Daten und deren Präsentation kümmert, geht es bei «Data Intelligence» eher um die Analyse der Informationen selbst. Man fokussiert auf die Analyse sowie die sinnvolle Interaktion von deskriptiven, präskriptiven, diagnostischen, prädiktiven und entscheidungsfindenden Daten und Informationen, um in Zukunft eine bessere Entscheidungsfindung zu fördern.

Diese Methoden der Datenanalyse, welche ich später im Detail beschreibe, haben zum Ziel, die Daten zu verstehen, alternative Erklärungen aufzudecken, Probleme zu lösen und zukünftige Trends zur Verbesserung von Entscheidungen zu identifizieren.

Heutzutage ist eine der häufigsten Anwendungen von «Data Intelligence» das Verständnis über die Präferenzen von Kunden. Durch den Einsatz von Data Mining zur Erfassung von Informationen über Gewohnheiten, Einkaufspräferenzen und andere individuelle Merkmale können Unternehmen ihre Produkte und Dienstleistungen besser auf die Bedürfnisse der Kunden zuschneiden und Tendenzen in ihrer gesamten Demografie verstehen. Mit diesen Erkenntnissen kann man in bestimmten Bereichen die Produkte und Dienstleistungen optimieren sowie verschiedene Ansätze aufzeigen, die langfristig effektiver sein könnten.

Ein weiterer Einsatz von «Data Intelligence» ist das Verständnis der Wirksamkeit von Investitionen für ein Unternehmen. Durch die Sammlung von umfangreichen Daten, die einen grösseren Kontext darstellen sowie deskriptiven und präskriptiven Analysen auf diesen Daten, können Unternehmen feststellen, ob sich die von ihnen eingesetzten Mittel für eine Investition ausgezahlt haben.

«Data Intelligence» beantwortet somit diese wichtige Frage:

„Welches neue oder nicht bekannte Wissen kann strategisch wie, wo und von wem zukünftig genutzt werden, um einen maximalen Wert im Sinne einer nachhaltigen Innovation für ein Unternehmen zu erzeugen?“

3.4 Ein Ordnungsrahmen für alle Daten

Während sich in Europa zur Mitte des 9. Jahrhunderts die Natur- und Geisteswissenschaften auf wenige Klöster beschränkten, waren im arabischen Raum inzwischen blühende Kulturzentren sowie Zentren der Wissenschaften und schönen Künste entstanden.

Die klassische Antike übte einen starken Einfluss auf die arabischen Gelehrten des Mittelalters aus. Universelles Wissen galt als erstrebenswert, man war in Geometrie und Arithmetik, Musik und Astronomie sowie in Medizin und Jurisprudenz bewandert. Zu diesen Zeiten waren die hohe Kunst der Mathematik, Dichtung und vor allem Musik von den Höfen am Tigris nicht wegzudenken.

«Bereits im Jahr 825 gab es ein „Haus der Weisheit“ im Vorderen Orient, namentlich in Bagdad.»

Das „Haus der Weisheit“ war eine Akademie, die im Jahr 825 vom Kalifen al-Ma'mūn in Bagdad gegründet wurde. Dort arbeiteten zeitweise rund 90 Menschen an wissenschaftlichen Übersetzungen, vor allem aus dem Griechischen, in die arabische Sprache. Ab dem 10. Jahrhundert wurden die arabischen Übersetzungen ins Hebräische und später ins Lateinische übertragen, wobei häufig Juden, die in Mesopotamien wie Spanien lebten, die Dolmetscher waren.

Im Haus wurden alle aufzufindenden Werke der Antike übersetzt, unter anderem von Hippokrates, Platon, Aristoteles, Ptolemäus oder Archimedes. Es wurde dazu eine neuartige Technik der konzeptionellen anstelle der wörtlichen Übersetzung entwickelt.

Neben dem Übersetzungszentrum zählte man zum Haus der Weisheit auch ein Observatorium, eine reichhaltige Bibliothek sowie ein Krankenhaus.

Bagdad war die Quelle, aus der ganz Europa in den folgenden Jahrhunderten sein Wissen bezog. Nach dem Vorbild der Institution wurden ähnliche Einrichtungen in Córdoba und Sevilla geschaffen, beispielsweise liess Kalif al-Hakim im Jahr 1000 ein ähnliches Haus der Weisheit in Kairo errichten. Erst der verheerende Mongolensturm im Jahre 1258 setzte dem beflissenen Treiben ein fürchterliches Ende - Bagdad wurde erobert und dabei das Haus der Weisheit zusammen mit allen anderen Bibliotheken zerstört.

In der Tat steht heutzutage in Bagdad kaum noch ein Gebäude, das aus der Epoche vor dem Einfall der Mongolen stammt. Nur die berühmteste Universität, Al-Mustansiriya am Tigris, die erst 1242 fertiggestellt worden war, hat dies überstanden [26]. Für viele Jahrhunderte ging eine einzigartige Sammlung an Wissen verloren, welches viel später wiederentdeckt und mühsam neu niedergeschrieben werden musste.

Diese Geschichte hat mich inspiriert, als ich für eine grosse Schweizer Bank, für die ich einige Jahre tätig war, eine Datenstrategie zu entwickeln hatte. Bei dieser Aufgabe habe ich mir anfangs die Frage gestellt, wie man einen passenden Überblick von allen elektronischen Daten und Dokumenten schaffen und dies mit IT-Experten teilen kann - als Antwort darauf ist mein hier beschriebenes «Haus der Daten & Dokumente» entstanden.

Die Bank hatte im Jahr 2019 ein gespeichertes Datenvolumen von drei (3) Petabytes an strukturierten und unstrukturierten Daten. Durch rechtliche und regulatorische Auflagen mussten die Daten zudem auf einen zweiten Standort kopiert werden, was das gesamte Datenvolumen verdoppelt hat. Das jährliche Wachstum der gesamten Daten betrug circa 20 Prozent.

«Das Haus der Daten & Dokumente bildet einen zentralen Ordnungsrahmen für elektronische Daten und Dokumente.»

Bei diesem grossen Datenaufkommen und der Vielfältigkeit von Daten war ein erster Gedanke, dass ich neben den elektronischen Daten ebenfalls die elektronischen Dokumente berücksichtigen muss - diese entstehen ja durch die Tätigkeiten im Verlauf eines Geschäftsprozesses.

Gleichzeitig sollte dieser Überblick eine Basis für die Weiterentwicklung der Fähigkeiten zur Datenbereitstellung und Datennutzung sein, damit neue bzw. bestehende IT-Applikationen mit einem gemeinsamen Verständnis zwischen Fachabteilungen und den IT-Abteilungen entwickelt bzw. adaptiert werden.

Meine Definition vom «Haus der Daten & Dokumente» (HDD)

Genau für diesen Zweck habe ich sodann einen Ordnungsrahmen für alle elektronischen Daten und Dokumente geschaffen, den ich das «Haus der Daten & Dokumente» genannt habe. In diesem Abschnitt führe ich nun diesen neuen Grundbegriff ein, welchen ich im Folgenden abgekürzt auch als HDD bezeichnen werde.

Das «Haus der Daten & Dokumente» (HDD) definiert einen einheitlichen Ordnungsrahmen für alle Datenarten, wobei im Daten- und Informationsmanagement eine Datenart die Unterscheidung der jeweiligen (technischen) Ausprägung von elektronischen Daten und Dokumenten festlegt. Dieser Ordnungsrahmen fördert das einheitliche Verständnis und die Kommunikation zwischen den Fachbereichen und den IT-Abteilungen, indem die fachliche Sicht auf alle Arten von elektronischen Daten und Dokumenten unter Einbezug von Metadaten als sogenannte Datenobjekte modelliert und dem HDD zugeordnet werden. Ich werde dies im nächsten Abschnitt noch genauer erläutern.

Elektronische Daten können in strukturierter, semi-strukturierter und unstrukturierter Form als Datensätze vorliegen. Bei Dokumenten handelt es sich hingegen immer um unstrukturierte Daten und diese können entweder physisch in gedruckter Form (beispielsweise als Blatt oder Buch) oder als digitale Dokumente in Form von elektronischen Dateien vorliegen. Nun möchte ich diesen - auf Datenarten bezogenen - Ordnungsrahmen grafisch auf der obersten Ebene grob skizzieren:


Das HDD definiert einen Ordnungsrahmen für alle Datenarten

Somit können alle möglichen Datenarten im HDD zugeordnet werden.

Die Datenarten im «Haus der Daten & Dokumente»

Elektronische Daten, welche in strukturierte, semi-strukturierte und unstrukturierte Daten unterteilt werden.

Digitale Dokumente, die immer zu den unstrukturierten Daten gehören.

Physische Dokumente, die klassisch in einem Archiv abgelegt werden.

Metadaten, welche durch die zusätzliche Beschreibung von Daten und Dokumenten ein effektives Auffinden, Verwenden und Verwalten dieser Datenbestände ermöglichen sowie umfassende Datenanalysen ermöglichen oder diese optimieren.

Informationen in strukturierter und teilweise in semi-strukturierter Form, welche der Entscheidungsfindung dienen und sich aus der Kombination oder Interpretation von elektronischen Daten und Metadaten ergeben.

Wissen über noch nicht bekannte oder komplett neue Informationen, Erkenntnisse und Vorhersagen in strukturierter und teilweise in semi-strukturierter Form, welches mit der Nutzung von «Data Intelligence» erzeugt wird, um zusätzliche Werte für ein Unternehmen zu schaffen. Dabei kommen oft Verfahren der Data Science und die Künstliche Intelligenz zum Einsatz.

«Wissen kann nur dann vorliegen, wenn man eine wahre Meinung hat. Doch nicht jede wahre Meinung stellt auch Wissen dar.»

Meine Definition der möglichen Datenarten

Als elektronische, strukturierte Daten werden solche Datensätze verstanden, die innerhalb eines relationalen oder objektorientierten Datenbankschemas eine Zeilen- und Spaltenposition oder einen Verweis haben. Diese Daten weisen zumindest technische Metadaten auf und sind für die automatisierte Datenverarbeitung optimiert.

Beispiele für strukturierte Datensätze sind Einträge von Stammdaten (beispielsweise Kunden- oder Produktdaten) und Referenzdaten (beispielsweise Währungen oder NOGA-Codes) in Datenbank-Tabellen.

Als elektronische, semi-strukturierte Daten werden solche Datensätze verstanden, die ein bestimmtes elektronisches Format haben und zusätzlich fachliche oder technische Metadaten besitzen, die entsprechend interpretiert werden können.

Ein Beispiel für semi-strukturierte Daten sind Dateien im XML-Format, dessen Struktur durch Labels (sogenannte Tags) festgelegt wird, allerdings sind zu den einzelnen Tags beliebige Inhalte in diversen Formaten möglich. Diese Form von semi-strukturierten Daten wird oft bei Daten-Schnittstellen zwischen IT-Applikationen benutzt.

Als elektronische, unstrukturierte Daten werden solche Datensätze und ebenso alle digitalen Dokumente in einem beliebigen elektronischen Format verstanden, die keine zusätzlich oder interpretierbaren Metadaten aufweisen und deren Inhalt nicht einfach bestimmbar ist.

Beispiele für unstrukturierte Daten sind digitale Texte, Bilder und Grafiken auf Webseiten, gescannte Dokumente (beispielsweise ein Personalausweis oder ein Foto), Audioaufzeichnungen, Videos oder Web-Chats in beliebiger Textform.

Obwohl digitale Dokumente (beispielsweise im Format MS Word) natürlich eine Formatierung haben, ist dennoch der Inhalt beliebig und es ist eine spezielle Software für die Anzeige und Bearbeitung dazu notwendig. Selbst E-Mails sieht man als unstrukturierte Daten an - die Nachrichten selbst sind zwar in einer Datenbank organisiert, aber der „Body“ einer E-Mail ist ein formfreier Text ohne jegliche Struktur.

Bei digitalen Dokumenten handelt es sich entweder um das Originaldokument oder um eine elektronische Kopie (beispielsweise durch Scanning) eines physischen Dokuments, welches das Originaldokument ist.

Dabei gelten die folgenden Regeln für digitale Dokumente:

• Ein Dokument kann Daten und Informationen in beliebiger Darstellungsform enthalten;

• ist eine Urkunde, ein Schriftstück oder ein Beleg, welches zur Belehrung über etwas, zur Erhellung von etwas oder als Beweismittel dient;

• ist eine elektronisch existente Informationssammlung, beispielsweise eine Datei auf einem Computer oder der erzeugte Output einer IT-Applikation;

• muss als eine Einheit gespeichert werden und als solche aufgefunden, wahrgenommen, versandt und verwendet werden können.

Schlussendlich werden physische Dokumente als Dokumente in Papierform und somit als fest definierte Informationssammlung verstanden, deren Inhalte grundsätzlich nicht direkt durch eine IT-Applikation - vor allem ohne die vorhergehende Umwandlung in ein elektronisches Format durch beispielsweise Scanning - interpretiert werden können. Beispiele für physische Dokumente sind ein gedruckter Lebenslauf, eine gedruckte Biographie oder ein gedruckter Kundenauftrag.

Meine Definition von Metadaten

Metadaten sind zusätzliche, strukturierte Daten über die eigentlichen elektronischen Daten in den Geschäftsprozessen - welche die Objekte der realen Welt abbilden - und deren Eigenschaften beschreiben sollen.

Dazu ein leicht verständliches Beispiel: Man kann Metadaten mit der äusseren Beschriftung einer geschlossenen Dose vergleichen, womit der Inhalt der Dose beschrieben wird. Beispielsweise kann man auf dem Label einer Dose mit Tomatensuppe ablesen, welche Zutaten und Inhaltsstoffe darin enthalten sind und welche Nährwerte dieses Gericht hat, ohne die Dose öffnen zu müssen, wie in der nachstehenden Grafik gezeigt wird:


Mit Metadaten werden elektronische Daten zusätzlich beschrieben

Deshalb spricht man bei Metadaten gerne von „Daten-1 über Daten-2“, da die erstgenannten Daten-1 zusätzliche Eigenschaften der zweitgenannten Daten-2 beschreiben - analog zu meinem Beispiel mit dem Label der Suppendose.

Es wird auch zwischen fachlichen und technischen Metadaten unterschieden und Metadaten werden normalerweise eigenständig in Datenbanken abgelegt, welche maschinell lesbar oder auswertbar sind.

Fachliche Metadaten werden als zusätzliche, strukturierte Daten definiert, die zur Verarbeitung von fachlichen Fragestellungen herangezogen und ausgewertet werden und müssen meist manuell hinzugefügt bzw. eingegeben werden.

Im Gegensatz dazu werden technische Metadaten meist automatisch erzeugt und zur elektronischen Verarbeitung von technischen Aufgaben herangezogen sowie ausgewertet. Beispiele für Metadaten sind fachliche Definitionen oder definierte Geschäftsregeln und Formeln.

«Eine einheitliche Übersicht von elektronischen Daten und Dokumenten ist entscheidend für ein effektives Daten- und Informationsmanagement.»

Die Datensegmente im HDD

Das HDD kann in weiteren Schritten immer weiter verfeinert und dabei jeweils um zusätzliche Details - bezogen auf die jeweilig adressierten Fachbereiche - auf den nächst tieferen Ebenen erweitert werden.

Dazu werden die elektronischen Daten und Dokumente inhaltlich oder thematisch gebündelt und zuvor definierten Datensegmenten zugeteilt, die beliebig fein weiter unterteilt werden können, was in der nachstehenden Grafik dargestellt wird:


Die fünf definierten Datensegmente der obersten Ebene im HDD

Ein Datensegment beschreibt im «Haus der Daten & Dokumente» einen abgegrenzten Bereich von elektronischen Daten und Dokumenten mit ähnlichem Inhalt oder ähnlicher Struktur. Datensegmente können über verschiedenen Ebenen beliebig tief detailliert werden, wobei die Ebene (0) dabei immer die oberste Ebene der Datensegmente bezeichnet. Also können die folgenden fünf Datensegmente auf der obersten Ebene im HDD vollständig zugeordnet werden.

Das Datensegment Geschäftsintelligenz umfasst alle, intern oder extern verfügbaren, teilweise auch gestreamten dispositiven Daten und Dokumente über alle Datenarten hinweg, welche unter Einsatz von Data Analysis und oft unter Zuhilfenahme von Künstlicher Intelligenz, für die Gewinnung von neuen oder „versteckten“ Erkenntnissen sowie neuem Wissen und der Erzeugung dazugehöriger, neuer Daten nutzbar sind.

Die datengetriebene Entscheidungsfindung, unter anderem mit dem Einsatz von Prescriptive Analytics für automatisierte Entscheide, ist ein wesentlicher Anwendungsfall.

Das Datensegment Geschäftsinformationen umfasst alle, intern oder extern verfügbaren dispositiven Daten und teilweise Dokumente über alle Datenarten hinweg, welche unter Einsatz von Data Analytics und Data Mining, teilweise unter Zuhilfenahme von Machine Learning, für die Gewinnung von neuen oder bisher nicht bekannten Erkenntnissen sowie Wissen dienen.

Einen Schwerpunkt bildet dabei die datengestützte Entscheidungsfindung, primär im Rahmen von Business Intelligence. Mögliche Beispiele sind Auswertungen, Kennzahlen sowie aufbereitete oder berechnete Daten.

Das Datensegment Metainformationen umfasst alle zusätzlichen, strukturierten Metadaten über die eigentlichen elektronischen Daten und digitalen Dokumente in den Geschäftsprozessen. Diese Metadaten reichern alle anderen, in dieser Aufstellung angeführten Datensegmente in Form von fachlichen und technischen Metadaten mit zusätzlichen Eigenschaften an, um die gewünschten Datenanalysen bei fachlichen Fragestellungen oder technischen Aufgaben zu erweitern.

Das Datensegment Geschäftsdaten umfasst all jene operativen Daten, welche die Geschäftsprozesse eines Unternehmens abbilden. Dies sind also die Daten (beispielsweise Transaktionsdaten, Produktdaten oder Vertriebsdaten), welche während der Durchführung eines Geschäftsprozesses erzeugt, modifiziert, geschrieben und gelesen werden. Die dabei beteiligten IT-Applikationen benötigen meist zusätzliche Daten aus dem Datensegment „Basisdaten“, um eine möglichst effiziente Durchführung der Geschäftsprozesse zu ermöglichen.

Das Datensegment Basisdaten umfasst jene grundlegenden operativen Daten, welche als Basis für die Abbildung von Geschäftsprozessen benötigt werden - beispielsweise Kundendaten, Adressdaten, Referenzdaten und fachliche Schlüssel wie beispielsweise Artikelnummern. Dabei kennzeichnen sich Basisdaten dadurch aus, dass diese meist für das gesamte Unternehmen gelten und bereichsübergreifend in mehreren Geschäftsprozessen verwendet werden.

„Was ist denn das für ein Symbol?“, mag sich der geschätzte Leser hier nun fragen. Wie am Ende des Proömiums angekündigt, habe ich mir eine grafische Orientierungshilfe ausgedacht, um jene Kapitel, die überwiegend Expertenwissen beinhalten, speziell zu kennzeichnen. Mit einem solchen Symbol wird angezeigt, dass das folgende Kapitel speziell für Fachleute stärker ins Detail geht - es gibt viele fachliche oder technische Ausdrücke und ist daher anspruchsvoller zu lesen. Für eine schnelle Lektüre kann man diese Textteile bis zum nachstehenden Symbol gerne überspringen und zu einem späteren Zeitpunkt lesen, ohne dass der gesamte Kontext verloren geht.


Alles klar? Dann gehen wir mal ins Detail…

In einem nächsten Schritt will ich eine weitere Detaillierung durchführen und in der nachstehenden Grafik die logisch folgende, nächste Ebene 1 mit einer feineren Aufteilung der zuvor gezeigten Datensegmente im HDD zeigen:


Die verfeinerten Datensegmente der Ebene 1 im HDD

Die Erweiterung kann als neue Ebene 1 von den zuvor definierten, fünf (Haupt-)Datensegmenten aus der Ebene 0 im HDD beschrieben werden:

Die verfeinerten Datensegmente im HDD

Das Datensegment Auswertungen umfasst alle Daten aus den Auswertungen der neu gewonnenen Erkenntnisse von Geschäftsinformationen, beispielsweise Analysen, Trends, Vorhersagen oder sogar Handlungsanweisungen. Diese Daten kann ein Fachanwender ohne spezielle fachliche Kenntnisse abrufen.

Das Datensegment Analysen umfasst all jene Daten, welche benötigt werden, um neue Erkenntnisse, die mit zusätzlichen Analysen aus den Geschäftsinformationen im Rahmen von Data Science und oft mit Hilfe von Künstlicher Intelligenz gewonnen werden, zu erstellen. Für die Nutzung dieser Daten und die Erstellung von Analysen erfordert es spezielle fachliche Kenntnisse.

Das Datensegment Aufbereitete Daten umfasst all jene Daten, welche benötigt werden, um Erkenntnisse (also Informationen) für alle Geschäftseinheiten eines Unternehmens zu gewinnen. Diese werden meistens im Rahmen von Business Intelligence erzeugt, unter anderem sind dies:

• zusammengeführte Daten (also Daten, die aus unterschiedlichen Datenquellen generiert werden)

• aggregierte und gefilterte Daten (Aggregationen zur Detailreduktion oder Filterungen, beispielsweise die Eingrenzung auf Vertriebswege oder Kundengruppen)

• aufbereitete (beispielsweise anonymisierte oder speziell formatierte Daten)

• berechnete Daten von internen Stellen (beispielsweise Transformationen oder Zwischenergebnisse aus ETL-Strecke und Rechenkernen)

• berechnete Daten von externen Stellen (also Daten, die von externen Parteien berechnet, aggregiert oder gefiltert und somit bereits aufbereitet zur Verfügung gestellt werden) und umfasst auch extern erstellte Auswertungen und Analysen

Das Datensegment Kennzahlen umfasst alle im Rahmen einer dispositiven Sicht erzeugten Kennzahlen. Diese sollen für ein Unternehmen einheitlich definiert und bereichsübergreifend verwendet werden.

Das Datensegment Dispositive Basisdaten umfasst all jene Daten, welche für die Auswertungen und Analysen aus einer dispositiven Sicht benötigt werden:

• eine redundante Kopie der Rohdaten aus der operativen Datenwelt (meist aus Gründen der Performance und zur Entkopplung der IT-Systeme) und diese Kopie beinhaltet zumindest die Basisdaten, die Geschäftsdaten und externe, operative Rohdaten

• externe, dispositive Rohdaten (beispielsweise statistische Kennzahlen oder standortbezogene Daten)

• dispositive Struktur- und Dimensionsdaten (beispielsweise alternative Konzernstrukturen)

Das Datensegment KI Daten umfasst alle erforderlichen Trainings-, Input- und Ergebnisdaten für die KI-Modelle sowie die KI-Modelle selbst, welche im Rahmen der Geschäftstätigkeit entwickelt und bereitgestellt werden.

Das Datensegment Stammdaten umfasst die mitunter wichtigsten Daten eines Unternehmens, welche meistens über mehrere Geschäftsprozesse hinweg genutzt werden. Dazu gehören beispielsweise:

• Kundendaten, Personal & Organisation, Finanzmarktdaten

• interne Stammdaten (zum Beispiel Immobilien-Daten, Büroflächen, Telefonbuch, Zimmer-Nummern, IT-Hardware Inventar, IT System Inventar)

• externe Stammdaten (beispielsweise Geo-Daten, postalische Adressen, Bank- und Börsenfeiertage, UID für Unternehmen)

Das Datensegment Referenzdaten umfasst die Inventare von Schlüsseln und anderen Referenzwerten, welche über mehrere Geschäftsprozesse genutzt werden, für das gesamte Unternehmen einheitlich definiert sind und auf die üblicherweise referenziert werden. Dazu gehören beispielsweise:

• Eineindeutige (das heißt dieses Datum kommt nur ein einziges Mal vor), nicht sprechende (man kann vom Namen des Schlüssels keinen Rückschluss auf den Inhalt machen; beispielsweise sollte eine Kontonummer nicht gleichzeitig auch der Schlüssel sein)

• fachliche Schlüssel für Stamm- und Referenzdaten, welche intern erzeugt und verwaltet werden

• interne Referenzdaten, die durch das Unternehmen selbst definiert und erzeugt werden (beispielsweise interne Ratings, Risikostufen, Segmentierungen)

• externe Referenzdaten, wie extern erzeugte Schlüssel und Referenzdaten, welche von extern bezogen werden und generell oder branchenspezifisch gebräuchlich sind (beispielsweise Ländercodes, Währungscodes, NOGA-Code, externe Ratings)

Das Datensegment Produktdaten umfasst alle Definitionen von Produkten und Dienstleistung mit den dazugehörigen Geschäftslogiken (beispielsweise: ist die regulative Relevanz pro Produkt für ein „Jugendkonto“ für Personen unter 20 Jahren gegeben?).

Das Datensegment Vertriebsdaten umfasst „scharfe“ Vertriebsdaten (beispielsweise ein Kunde) und zugehörige Dateninstanzen mit interner Anreicherung oder Veredelung.

Das Datensegment Bestand umfasst „scharfe“ Bestandsdaten (beispielsweise aus Konto und Depots von Kunden) und zugehörige Dateninstanzen mit interner Anreicherung oder Veredelung.

Das Datensegment Transaktionen umfasst alle „scharfen“ Transaktionsdaten (beispielsweise einen Kundenauftrag oder Aktienkauf), und zugehörige Dateninstanzen mit interner Anreicherung oder Veredelung.


Die Erweiterungen und Verfeinerungen der Datensegmente können je nach Bedürfnis beliebig so weiter fortgeführt werden, bis man alle erforderlichen Datensegmente auf der gewünschten Detaillierungsebene identifiziert und beschrieben hat. Das hier beschriebene Vorgehen und der richtige Einsatz vom «Haus der Daten & Dokumente» unterstützen die elegante und zielgerichtete Entwicklung einer Datenstrategie - und zwar jeweils basierend auf den grundlegenden Daten und Dokumenten eines Unternehmens.

Somit schließt sich der Kreis mit dem Beginn der Geschichte zu Beginn dieses Abschnitts und gleichzeitig habe ich den Mehrwert vom Grundbegriffe-Ansatz ein weiteres Mal aufzeigen können.

3.5 Ein Datenmodell bringt den Überblick

Allgemein betrachtet dient ein Modell zur Darstellung von Dingen, Gegenständen und Objekten der realen Welt und den Zusammenhängen - also Beziehungen - zwischen diesen Objekten. Im Rahmen der semantischen Datenmodellierung dient ein Datenmodell dazu, den in einem gegebenen Kontext relevanten Ausschnitt der realen Welt - beispielsweise die benötigten Funktionen bei der Entwicklung einer Software - zu bestimmen und als Modell darzustellen.

Somit sollen die bereichsübergreifende Abstimmung, Steuerung und Weiterentwicklung von elektronischen Daten vereinfacht werden. Die Dokumentation von Daten ist ebenfalls eine Grundvoraussetzung für die Entwicklung einer Datenstrategie, wie ich später noch aufzeigen werde.

Fachliche Datenmodelle haben in der Regel eine wesentlich längere Lebensdauer als Funktionen und Prozesse und somit Software - grundsätzlich gilt hier der einfache Leitsatz: Daten sind stabil, IT-Funktionen sind es nicht.

«Das primäre Ziel der Datenmodellierung ist ein ganzheitlicher, systematischer und nachhaltiger Ansatz zur einheitlichen Dokumentation der relevanten elektronischen Daten.»

Alle fachlichen Datenmodelle bestehen aus Datenobjekten als Abbildung von Objekten der realen Welt und schafft ein vollständiges Abbild aller relevanten Daten. Dabei geht es in erster Linie darum, die reale Welt unabhängig von der IT fachlich zu beschreiben und eine bestmögliche Grundlage für die Standardisierung der Daten zu bieten.

Das fachliche, ganzheitliche Unternehmensdatenmodell aka UDM ist ein konzeptionelles, semantisches Datenmodell, welches mit Datenobjekten als Abstraktion die wesentlichen Daten des gesamten Unternehmens in einer vereinfachten und systematischen Form darstellt und so für ganzheitliche Transparenz sorgt.

Das UDM schafft für das Unternehmen eine einheitliche, methodische und inhaltliche Basis zur Steuerung und Bewirtschaftung von elektronischen Daten und deckt die vollständige inhaltliche Dimension der Steuerung und Bewirtschaftung von Daten über die Datensegmente im HDD und über alle Phasen des Datenlebenszyklus ab:


Wesentliche Anwendungsfälle für das UDM

Durch fachliche Metadaten und deren Abbildung im UDM werden die logischen Zusammenhänge von Daten (Was wird betrachtet?), Verantwortlichkeiten (Wer betrachtet die Daten?) und Business Capabilities (Welche Fähigkeiten werden gebraucht?) transparent und konsistent.

Die Zusammenhänge von Daten über die verschiedenen Geschäftsprozesse hinweg werden aufgezeigt und man erkennt frühzeitig die Auswirkungen auf Daten bei der allfälligen Anpassung von Geschäftsprozessen. Ebenso können Daten effizient bewirtschaftet und effektiv genutzt werden, und die Daten sowie Erkenntnisse verbleiben nicht „versteckt“ in Silos der Fachbereiche.

Das UDM liefert damit die nötige Auskunftsbereitschaft über die logischen Zusammenhänge von Daten und Informationen für relevante Interessengruppen.

«Das UDM schafft die methodische und inhaltliche Basis für die Steuerung und Bewirtschaftung von Daten.»

Ein fachliches Datenmodell aka FDM ist ein konzeptionelles, semantisches Datenmodell, welches mit Datenobjekten als Abstraktion die wesentlichen Daten eines oder mehrerer IT-Applikationen sowie deren Beziehungen und Eigenschaften bezogen auf einen Geschäftsprozess oder eines Fachbereichs in einer vereinfachten und systematischen Form darstellt, um die jeweiligen Datenbedürfnisse sicherzustellen.

Ein FDM erleichtert das gemeinsame Verständnis und die Kommunikation innerhalb eines sowie zwischen mehreren Geschäftsprozessen, schafft verbindliche Verantwortlichkeiten und fördert die bereichsübergreifende Konsistenz von Daten. Jedes FDM stellt eine Erweiterung - also die nächste Abstraktionsstufe - des zuvor erwähnten, fachlichen Unternehmensdatenmodells (UDM) dar.

«Mit Datenobjekten stellt man die an Geschäftsprozessen beteiligten Daten & Zusammenhänge einfacher dar.»

Ein Datenobjekt ist die einheitliche, fachliche Abstraktion und Beschreibung eines in der realen Welt tatsächlich vorhandenen oder virtuellen Gegenstandes oder Objektes, der mit elektronischen Daten abgebildet werden soll, beispielsweise ein Vertrag.

Es leitet sich aus demjenigen Geschäftsprozess ab, in welchem gemäß Erzeuger-Grundsatz das Datenobjekt erzeugt, gespeichert oder genutzt wird und dient zur Abbildung, Modellierung und Steuerung dieses Objektes.

Nachstehend zeige ich ein stark vereinfachtes Beispiel für den Einsatz von Datenobjekten im «Haus der Daten & Dokumente» (HDD):


Beispiel: Einsatz von Datenobjekten, zugeordnet im HDD

In diesem Beispiel möchte ich gerne anhand der Ausstellung eines Vertrages für ein (beliebiges) Produkt und einen (beliebigen) Kunden den Einsatz von Datenobjekten und deren Verknüpfungen im HDD illustrieren.

Als erstes wird der Vertrag für ein bestimmtes Produkt und einen bestimmten Kunden in einer IT-Applikation als ein strukturierter Datensatz angelegt. Aus diesem Datensatz wird in einer anderen IT-Applikation eine elektronische Vertragsvorlage befüllt und dem Kundenbetreuer als Vertragsentwurf zur Durchsicht, Vervollständigung und Abnahme vorgelegt.

Der Kundenbetreuer druckt dann diesen Vertrag als „Unsignierten Vertrag“ aus und schickt diesen dem Kunden per Post (in diesem konkreten Fall gehe ich tatsächlich von Snail-Mail aus) zur Prüfung und Unterschrift zu. Nach einiger Zeit kommt der unterzeichnete Vertrag vom Kunden zurück, wird (zentral) gescannt, mit Metadaten versehen und zu einem „digitalen Vertrag“.

Dieser Zustand wird nun an die erstgenannte IT-Applikation gemeldet, damit der Vertrag für gültig erklärt wird. Abschliessend werden noch alle relevanten Vertragsdaten als Vertragsinformationen für zukünftige Auswertungszwecke abgelegt und der Geschäftsprozess ist nun abgeschlossen.

«Datendomänen ermöglichen die selektive Sicht auf bestimmte Datenobjekte für spezifische Anwendungsfälle.»

Im Daten- und Informationsmanagement wird die Gesamtheit der elektronischen Daten und Informationen in sogenannte Datendomänen eingeteilt, welche ich nachstehend beschreiben möchte.

Eine Datendomäne ist eine Sicht oder ein Filter auf die Datenobjekte eines fachlichen Datenmodells, wobei jedes einzelne Datenobjekt zu mehreren Datendomänen gehören kann. Datendomänen können nach unterschiedlichen Aspekten definiert werden, beispielsweise durch die Zugehörigkeit der Datenobjekte zu den Geschäftsprozessen, den Datenlebenszyklus der Datenobjekte oder die zugeordneten IT-Applikationen.

Innerhalb einer Datendomäne werden die einzelnen Daten als Datenobjekte fachlich dargestellt. Hierbei ist grösstmögliche Flexibilität bei grundsätzlicher Übereinstimmung zwischen den Datendomänen anzustreben. In den semantischen Datenmodellen eines Unternehmens - in der Regel sind dies ein UDM und mehrere FDM - werden die Datendomänen in den meisten Fällen noch feiner unterteilt und die jeweils zugehörigen Datenobjekte den entsprechenden IT-Applikationen zugeordnet.

Meine Definition von Datenobjekten

Ein Datenobjekt ist die einheitliche, fachliche Abstraktion und Beschreibung eines in der realen Welt tatsächlich vorhandenen oder virtuellen Gegenstandes oder Objektes, der mit elektronischen Daten abgebildet werden soll.

Es leitet sich aus demjenigen Geschäftsprozess ab, in welchem das Datenobjekt erzeugt, gespeichert oder genutzt wird und dient zur Abbildung, Modellierung und Steuerung dieses Objektes. Beispiele für Datenobjekte sind Kunden, Verträge oder Produkte.

Zudem ist jedes einzelne Datenobjekt einer oder mehreren Sichten zugeordnet. Es können unterschiedliche Sichten im UDM oder einem fachlichen Datenmodell FDM existieren (beispielsweise Verantwortlichkeiten für die Datenobjekte oder zugeordnete IT-Applikationen), welche sich nach den unterschiedlichen fachlichen, betrieblichen oder technischen Anforderungen und der Größe des fachlichen Datenmodells richtet.

Innerhalb des gleichen fachlichen Datenmodells kann jedes Datenobjekt nur genau einmal existieren, es kann aber mehrfach in den anderen fachlichen Datenmodellen vorkommen.

Das heißt, die Datenobjekte werden in verschiedenen fachlichen Datenmodellen wiederverwendet. So ist die Konsistenz sichergestellt und eine Transparenz über die Datenbereitstellung und Datennutzung wird gefördert.

Jedes einzelne Datenobjekt ist:

• unternehmensweit redundanzfrei genau einmal vorhanden;

• gesamtverantwortlich einer bestimmten Datendomäne zugeordnet;

• inhaltsverantwortlich einer definierten Rolle (dem Datenverantwortlichen) zugeordnet;

• und mit einer fachlichen Beschreibung der repräsentativen Informationen versehen.

Alle relevanten Datenobjekte sollen für die zweckmäßige Steuerung in fachlichen Datenmodellen - in der Regel ist dies zumindest ein unternehmensweites Unternehmensdatenmodell UDM sowie mehrere fachliche Datenmodelle FDM - auf mehreren Ebenen mit unterschiedlichem Detaillierungsgrad zusammengefasst und verwaltet werden.

«Meine Idee verbindet das UDM mit den diversen FDM, um eine gesamtheitliche fachliche Übersicht aller Daten eines Unternehmens zu erhalten.»

Die Idee ist nun, dass man - ausgehend von den Geschäftsprozessen - die relevanten Datenobjekte in zwei Abstraktionsstufen als ein UDM und mehrere FDM in fachlichen Datenmodellen zusammenführt, um die fachliche Sicht eines Unternehmens abzubilden.

Dann gibt es noch zwei weitere Abstraktionsstufen von Datenmodellen, um die technische Sicht abzubilden. Dies wird in der nachfolgenden Grafik dargestellt:


Die vier Abstraktionsstufen für Datenmodelle

Ein einziges fachliches Unternehmensdatenmodell (UDM) sowie alle verbundenen, fachlichen Datenmodellen (FDM) gehören zur fachlichen, konzeptionellen Sicht und bilden einen wesentlichen und zentralen Bestandteil der bereits erwähnten fachlichen Metadaten. Die zugehörigen Datenobjekte werden durch definierte Datenverantwortliche aus den Fachabteilungen erstellt, modifiziert und verwaltet.

Die Rollen und Verantwortlichkeiten für das Unternehmensdatenmodell UDM und die fachlichen Datenmodelle FDM werden später im Detail im Rahmen der Daten-Governance in diesem Buch beschrieben.

Die logischen Datenmodelle und die physischen Datenmodelle gehören ausschließlich zur technischen Sicht und werden üblicherweise von Systemarchitekten sowie IT-Fachleuten erstellt und verwaltet. Daher gehe ich in diesem Buch nicht weiter darauf ein.

Meine Definition des UDM

Das fachliche Unternehmensdatenmodell aka UDM ist ein konzeptionelles, semantisches Datenmodell, welches mit Datenobjekten als Abstraktion die wesentlichen Daten des gesamten Unternehmens in einer vereinfachten und systematischen Form darstellt und so für ganzheitliche Transparenz sorgt.

Das UDM schafft eine einheitliche und unternehmensweite, methodische und inhaltliche Basis zur Steuerung und Bewirtschaftung von elektronischen Daten über deren Abstraktion als Datenobjekte und deckt die inhaltliche Dimension der Datenbewirtschaftung über alle Datensegmente im HDD und über alle Phasen des Datenlebenszyklus ab.

Wesentlich ist dabei jedes Datenobjekt aus den Geschäftsprozessen, welches maßgeblich zur Entscheidungsfindung beiträgt oder zum Management von Informationen im Unternehmen benötigt wird. Die relevanten Datenobjekte werden dabei in ihrer Abhängigkeit zueinander dargestellt und zu den einzelnen Datenobjekte werden auch die wesentlichen Attribute definiert.

Das UDM versetzt ein Unternehmen in die Lage, alle Zusammenhänge von Datenobjekten auf einem hohen Abstraktionslevel unternehmensweit abgestimmt darzustellen, das Verständnis betreffend Datenobjekten zwischen den einzelnen Fachbereichen zu fördern, und die organisatorischen Verantwortlichkeiten für die Bewirtschaftung von Datenobjekten festzuhalten und sicherzustellen.

Ein UDM wird auf mehreren Ebenen mit unterschiedlichem Detaillierungsgrad zusammengefasst und auf dieser Grundlage können konsistente Lösungen für fachübergreifende Problemstellungen geschaffen werden. Die nächste Konkretisierung des UDM stellt ein fachliches Datenmodell aka FDM und dessen Datenobjekte dar.

Die Struktur des UDM

Das UDM besteht aus Datenobjekten und deren Beziehungen zueinander. Je nach Bedarf können Datenobjekte durch deren Hauptattribute noch wesentlich detaillierter beschrieben werden. Diese einzelnen UDM-Teildatenmodelle werden dann in ein gemeinsames UDM wieder zusammengeführt, wie die Grafik illustriert:


Das UDM mit mehreren Teil-Datenmodellen

Durch einen hohen Abstraktionsgrad soll die Anzahl der Datenobjekte im UDM bewusst klein gehalten werden, um eine pragmatische, unternehmensweite Bewirtschaftung der Datenobjekte zu ermöglichen.

Obschon die Anzahl der Datenobjekte des UDM bewusst begrenzt - in der Regel sind es maximal 200 Datenobjekte – werden sollen, ist diese Zahl dennoch zu hoch für ein einziges Diagramm.

Um die Handhabung des UDM zu vereinfachen, werden die Datenobjekte des UDM daher den zuvor definierten Datendomänen zugeordnet und für jede Datendomäne ein eigenständiges UDM-Teildatenmodell entwickelt, welches auf einer tieferen Ebene im UDM definiert ist.

Das Top-Level UDM

Zur Erleichterung der Kommunikation existiert eine weitere Abstraktionsstufe des UDM, das sogenannte Top-Level UDM. Es deckt ein Unternehmen gesamtheitlich ab, allerdings – wie zuvor bereits beschrieben - mit einer stark reduzierten Anzahl von Datenobjekten.

Es dient hauptsächlich als Hilfsmittel, um bei Brainstorming oder der Diskussion von Lösungen eine einfache gemeinsame Basis zu haben oder dem Management einen raschen Überblick über die aktuelle Datensituation zu geben.

Durch den sehr generischen Charakter des Top-Level UDM lässt sich grundsätzlich jedes Unternehmen beschreiben, wie die nachstehende Grafik für ein generisches Top-Level UDM zeigt:


Darstellung des generischen Top-Level UDM

Meine Definition eines FDM

Ein fachliches Datenmodell aka FDM ist ein konzeptionelles, semantisches Datenmodell, welches mit Datenobjekten als Abstraktion die wesentlichen Daten eines oder mehrerer IT-Applikationen sowie deren Beziehungen und Eigenschaften bezogen auf einen Geschäftsprozess oder eines Fachbereichs in einer vereinfachten und systematischen Form darstellt, um die jeweiligen Datenbedürfnisse sicherzustellen.

Ein FDM erleichtert das gemeinsame Verständnis und die Kommunikation innerhalb eines sowie zwischen mehreren Geschäftsprozessen, schafft verbindliche Verantwortlichkeiten und fördert die bereichsübergreifende Konsistenz von Daten. Jedes FDM stellt eine Erweiterung - die nächste Abstraktionsstufe - des zuvor erwähnten, fachlichen Unternehmensdatenmodells (UDM) dar.

Die Erstellung eines fachlichen Datenmodells kann sowohl über das UDM (Top-Down Prozess) als auch über ein logisches oder physisches Datenmodell und der dazugehörigen IT-Applikation (Bottom-Up Prozess) erfolgen. Bei der Modellierung von fachlichen Datenmodellen ist die Struktur und der Inhalt des UDM maßgebend und entsprechend bei der Ausgestaltung der Datenobjekte für das jeweilige fachliche Datenmodell zu berücksichtigen.

Die Verknüpfung von UDM und FDM

Wie vorher bereits erwähnt wurde, stellen fachliche Datenmodelle die nächste Abstraktionsstufe des Unternehmensdatenmodells UDM dar.

Durch die Verknüpfung der Datenobjekte von fachlichen Datenmodellen FDM mit den jeweiligen Datenobjekten des UDM wird einerseits eine Aggregation der Datenobjekte aus den verschiedenen Geschäftsprozessen an eine zentrale Stelle im UDM erreicht. Andererseits kann man einfach nachvollziehen, welche Datenobjekte wo verwendet werden. Somit lässt sich die Herkunft und Nutzung eines Datenobjektes über die verschiedenen Geschäftsprozesse bis hin zur zugeordneten IT-Applikation nachvollziehen und damit - falls erforderlich - die von regulatorischen Aufsichtsorganen geforderte Data Lineage realisieren. Diese Verknüpfung wird in der nachstehenden Grafik gezeigt:


Verknüpfung der Datenobjekte in ein UDM

Die methodische und inhaltliche Basis des fachlichen UDM und der fachlichen Datenmodelle FDM wird durch eigens definierte Vorgaben für die Datenmodellierung sichergestellt. Das Zusammenspiel des UDM mit den fachlichen Datenmodellen FDM und deren Verknüpfung versetzt ein Unternehmen somit in die Lage:

• bei neuen IT-Projekten die Verwendung von Datenobjekten gezielt abzustimmen und zu steuern;

• den Aufbau von unerwünschten Datenredundanzen zu vermeiden;

• bei Anpassungen der IT-Applikationen die Auswirkungen auf betroffene Datenobjekte effizienter und umfassend zu beurteilen;

• und die durch regulatorische Aufsichtsbehörden erforderliche Data Lineage abzubilden.

Wesentliche Modellierungsgrundsätze

Damit eine möglichst hohe Qualität der semantischen Datenmodelle gewährleistet werden kann, möchte ich gerne kurz noch vier wesentliche Grundsätze für die fachliche Datenmodellierung vorstellen:

Relevanz: Modelliert werden nur jene Sachverhalte, welche für den zu Grunde liegenden Modellierungszweck relevant sind. Um dies beurteilen zu können, müssen die Ziele der Modellierung vorab klar definiert sein.

Lesbarkeit: Ein Datenmodell ist nur dann von Nutzen, wenn es vom Adressaten verstanden wird. Hierfür sind klare, möglichst eindeutige Begriffe für die Datenobjekte zu wählen. Zudem tragen Beschreibungen, Synonyme und Beispiele ebenfalls zum Verständnis bei. Klar ausgerichtete, geordnete Datenmodell-Diagramme mit möglichst wenig Überlappungen oder Kreuzungen der Verbindungslinien sowie eine farbliche Kodierung der Datendomänen erhöhen deren Lesbarkeit wesentlich.

Vergleichbarkeit: In realen Anwendungssituationen gibt es möglicherweise mehrere fachliche Datenmodelle, die miteinander vergleichbar sein müssen. Hierfür ist es erforderlich, dass unterschiedliche fachliche Datenmodelle die gleiche oder zumindest eine ähnliche Abstraktionsebene aufweisen, das heißt die Granularität der Datenobjekte sollte zwischen den Datenmodellen nicht unterschiedlich sein.

Klassifizierung: Die Kompliziertheit von Sachverhalten lässt sich durch die Darstellung aus unterschiedlichen Sichten oder die Nutzung des Grundbegriffe-Ansatzes gut reduzieren. Mithilfe einer Klassifizierung oder Gruppierung von Datenobjekten können Zugehörigkeiten ebenfalls leicht erkannt und dargestellt werden; beispielsweise eine Risikoklassifizierung nach den CIA Kriterien - und das hat nichts mit dem gleichnamigen Nachrichtendienst zu tun.


„Puh, das war jetzt aber richtig heftig mit all diesen Details“, denke ich mir gerade. “Nach meiner Erfahrung will ein Experte jedoch genau auf diese Details nicht verzichten. Ich werde daher an dieser ausführlichen Beschreibung von Sachverhalten in weiterer Folge bleiben.

Und durch die grafischen Symbole kann man diese Kapitel schnell überspringen, wenn man gerade mal keine Muse oder Zeit für die Lektüre hat, nicht wahr?“

3.6 Den Reifegrad von Daten bestimmen

Das Data Management Maturity Model des etablierten CMMI Institute ist als umfassendes Referenzmodell für die Prozessverbesserung der Datenbereitstellung nach dem aktuellen Stand der Technik gedacht. Es definiert die grundlegenden Geschäftsprozesse der Datenbereitstellung und weitere spezifische Fähigkeiten eines Unternehmens, die in einem abgestuften Pfad als Reifegrad dargestellt werden können.

Somit wird es einem Unternehmen ermöglicht, sich selbst anhand dokumentierter und bewährter Verfahren zu bewerten, Lücken zu ermitteln und die Bereitstellung von Daten über funktionale, branchenspezifische und geografische Grenzen hinweg zu verbessern.

Das DMM Modell dient primär zur Prozessverbesserung und Beurteilung der Reife von Fähigkeiten für die Datendisziplin „Datenbereitstellung“ eines Unternehmens sowie allen dazugehörigen Aktivitäten.

Es enthält bewährte Verfahren für die Einrichtung, den Aufbau, die Aufrechterhaltung und die Optimierung einer effizienten Datenbereitstellung über den gesamten Datenlebenszyklus hinweg, von der Erstellung über die Speicherung bis hin zur Wartung und Archivierung von Daten.

Der Standard des DMM Modells ist auf zahlreiche Branchen und viele Ziele der Datenbereitstellung anwendbar. Es erleichtert die Wertschätzung eines Unternehmens für die Datenbereitstellung als kritische Infrastruktur durch die Steigerung der notwendigen Fähigkeiten und Praktiken. Obwohl das DMM Modell die Anforderungen und Aktivitäten für eine effektive Datenbereitstellung definiert, schreibt es nicht explizit vor, wie ein Unternehmen diese Fähigkeiten erreichen soll [28].

Deshalb nutze ich das DMM Modell als grundlegende Basis für die Beurteilung des Reifegrads aller von mir festgelegten Datendisziplinen, also den datenbezogenen Fähigkeiten oder „Business Capabilities“ eines Unternehmens. Damit will ich sowohl eine effiziente Datenbereitstellung als auch eine effektive Datennutzung beurteilen und die Zielsetzung für einzelne Datendisziplinen festlegen können, um schlussendlich den jeweilig gewünschten Reifegrad durch geeignete Maßnahmen (und mit der Durchführung von IT-Projekten) zu erreichen.

Die Zielsetzung meines Reifegrad-Modells besteht darin, Unternehmen dabei zu helfen, ihre Fähigkeiten bei der Bereitstellung und Nutzung von (kritischen) Datenbeständen zu verbessern. Gleichzeitig will ich einen Maßstab festlegen, der sich für die kontinuierliche Verbesserung der notwendigen Prozesse, die Einhaltung von Vorschriften und für die - allenfalls notwendigen - Audits von Datenbeständen eignet.

Die Vorstellung des Reifegrad-Modells

Das Reifegrad-Modell weist sechs (6) Stufen über die Fähigkeiten und Reife der jeweiligen Datendisziplin auf, welche ich nachfolgend beschreibe:


Die sechs Stufen der Reifegrade von Datendisziplinen

Stufe 0 - Nicht betrachtet: Die Datendisziplin wurde nicht betrachtet und deshalb nicht bewertet.

Stufe 1 - Ad hoc: Prozesse werden ad hoc durchgeführt, hauptsächlich auf der Projektebene. Prozesse werden in der Regel nicht geschäftsbereichsübergreifend angewendet. Die Prozessdisziplin ist in erster Linie reaktiv, beispielsweise wird bei Datenqualitätsprozessen die Reparatur der Prävention vorgezogen. Grundlegende Verbesserungen können vorhanden sein, aber Verbesserungen werden innerhalb des Unternehmens noch nicht erweitert oder beibehalten. Daten werden als eine Voraussetzung für die Durchführung von Projekten verwaltet.

Stufe 2 - Verwaltet: Prozesse werden in Übereinstimmung mit den Richtlinien geplant und ausgeführt; es werden qualifizierte Mitarbeiter mit angemessenen Ressourcen beschäftigt, um kontrollierte Ergebnisse zu erzielen; beziehen relevante Interessengruppen mit ein; werden überwacht und kontrolliert und hinsichtlich der Einhaltung des definierten Prozesses bewertet. Es besteht ein Bewusstsein für die Bedeutung der Datenbereitstellung als kritische Infrastruktur.

Stufe 3 - Definiert: Es werden eine Reihe von Standardprozessen angewandt und konsequent befolgt. Prozesse zur Erfüllung spezifischer Bedürfnisse werden aus dem Satz von Standardprozessen gemäß den Richtlinien des Unternehmens maßgeschneidert. Daten werden auf organisatorischer Ebene als entscheidend für die erfolgreiche Durchführung von Innovationen behandelt.

Stufe 4 - Gemessen: Prozess-Metriken wurden definiert und werden für die Datenbereitstellung verwendet. Dazu gehört die Verwaltung von Varianz, Vorhersage und Analyse unter Verwendung statistischer und anderer quantitativer Techniken. Die Prozessleistung wird über die gesamte Lebensdauer des Prozesses verwaltet. Daten werden als die Quelle von Wettbewerbsvorteilen beurteilt und behandelt.

Stufe 5 - Optimiert: Die Prozessleistung wird durch die Anwendung der Level-4-Analyse zur Zielfindung von Verbesserungsmöglichkeiten optimiert. Best Practices werden mit Kollegen und der Industrie ausgetauscht. Daten werden als entscheidend für das Überleben des Unternehmens in einem dynamischen und wettbewerbsorientierten Markt angesehen.

Meine Definition der Reifegrad-Beurteilung

Eine Reifegrad-Beurteilung wird sporadisch oder aus aktuellem Anlass - beispielsweise nach einem „Data Breach“, das heißt dem nicht autorisierten Transfer von vertraulichen Daten nach außen - durchgeführt. Vor allem ist die Reifegrad-Beurteilung ein wichtiger Punkt bei der Entwicklung einer Datenstrategie, um die Ausgangssituation der Fähigkeiten der Datendisziplinen zu ermitteln.

Die Reifegrad-Beurteilung erfordert im Unterschied zur weiter hinten beschriebenen Datendisziplin Fähigkeitsmessung, dass hier die zu messenden Prozessbereiche oder Geschäftsprozesse betreffend deren Funktions- und Leistungsfähigkeit über alle Datendisziplinen hinweg betrachtet werden. Das grundlegende Vorgehen dafür wird in der nachstehenden Grafik skizziert:


Das Vorgehen für eine Reifegrad-Beurteilung

Die Reifegrad-Stufe kann für einzelne Prozessbereiche, einzelne Geschäftsprozesse oder eine beliebige Kombination davon bis hin zum gesamten Geschäftsprozessmodell gemessen werden.

Um beispielsweise eine Reifegrad-Bewertung der Stufe 3 in der Datendisziplin „Datenqualität“ zu erreichen, muss ein Unternehmen mindestens die Funktionsfähigkeit Stufe 3 für alle Prozessbereiche in der Datenbereitstellung und der Datennutzung sowie die Funktionsfähigkeit Stufe 3 in der Datendisziplin „Datenqualität“ erreichen.

Die Durchführung der Reifegrad-Beurteilung erfolgt durch die mit der Daten-Governance beauftragten Organisationseinheit - meist ist dies eine zentrale Funktion. Der bestehende Reifegrad von Prozessbereichen, Geschäftsprozessen oder ganzen Datendisziplinen wird regelmäßig - in der Regel ist das einmal jährlich - an die Unternehmensführung berichtet.

Vier Schritte zur Reifegrad-Beurteilung

1. Gewünschten Soll-Reifegrad festlegen: Für die zu untersuchenden Datendisziplinen wird ein gewünschter Soll-Reifegrad - in der Regel zumindest 3 oder grösser - festgelegt, wobei nicht jede Datendisziplin den gleichen Reifegrad aufweisen muss.

2. Aktuellen Ist-Reifegrad erheben: Für die zu untersuchenden Datendisziplinen wird für alle zugehörigen Geschäftsbereiche und - falls erforderlich - ebenso die Geschäftsprozesse der Ist-Reifegrad durch die jeweiligen Fachabteilungen erhoben und dokumentiert.

3. Reifegrad-Lücken bestimmen: Die Lücke vom Ist-Reifegrad zum Soll-Reifegrad wird für alle zu untersuchenden Datendisziplinen im Rahmen der Daten-Governance bestimmt und dokumentiert. Die Schritte 2 und 3 können ad hoc bei Bedarf oder periodisch für bestimmte Datendisziplinen wiederholt werden, um die Weiterentwicklung des Reifegrades für diese im Zeitverlauf zu betrachten.

4. Derzeitigen Ist-Reifegrad berichten: Der bestehende Reifegrad pro Datendisziplin wird regelmäßig an das Management berichtet, um allfällige Maßnahmen zur punktuellen oder flächendeckenden Verbesserung der betroffenen Datendisziplinen zu identifizieren.

Meine Definition der Fähigkeitsmessung für Datendisziplinen

Im Gegensatz zur soeben beschriebenen Reifegrad-Beurteilung sollte die Fähigkeitsmessung der Datendisziplinen auf Basis der vorher definierten Reifegrade für die Datendisziplinen regelmäßig durchgeführt werden.

Sollte aus einer Reifegrad-Beurteilung heraus der gewünschte Soll-Reifegrad für einzelne Geschäftsprozesse, Prozessbereiche oder eine ganze Datendisziplin nicht dem aktuellen Ist-Reifegrad entsprechen, so sind entsprechende Handlungsfelder zu identifizieren und geeignete Maßnahmen zur Behebung der Defizite festzulegen.

Diese Maßnahmen werden dann im Rahmen von Fach- oder IT-Projekten umgesetzt, damit diese Lücken für die betroffene Datendisziplin geschlossen werden können.

Das grundlegende Vorgehen hierfür wird in der nachstehenden Grafik dargestellt, wobei der Prozess ebenfalls von der mit der Daten-Governance beauftragten Organisationseinheit getrieben wird:


Das Vorgehen für eine Datendisziplin-Fähigkeitsmessung

Nötige Schritte zur Messung der Datendisziplin-Fähigkeiten

1. Mögliche Handlungsfelder identifizieren: Auf Basis identifizierter Lücken aus einer Reifegrad-Beurteilung werden geeignete Handlungsfelder für die zu untersuchenden Datendisziplinen identifiziert.

2. Handlungsfelder analysieren und abstimmen: Für definierte Handlungsfelder werden Themen erhoben, in Bezug auf ihre Wesentlichkeit und Wirtschaftlichkeit analysiert und bewertet sowie mit den Fachbereichen abgestimmt.

3. Maßnahmen vorschlagen und abstimmen: Zu ausgewählten Handlungsfeldern werden entsprechende Maßnahmen und deren Nutzen identifiziert, bewertet und durch das Management zur Umsetzung ausgewählt.

4. Maßnahmen implementieren: Die festgelegten Maßnahmen werden als datengetriebene Projekte umgesetzt und der Fortschritt regelmäßig an das Management berichtet.


Die Beurteilung des Reifegrads der Datenbereitstellung und Datennutzung ist von strategischer Bedeutung und beispielsweise für die Entwicklung einer Datenstrategie essenziell. Eine Reifegrad-Beurteilung kann zu taktischen Projekten führen, die unter Nutzung der vorhandenen Stärken des Unternehmens nach einer Datendisziplin-Fähigkeitsmessung durchgeführt werden können.

Außerdem können beispielsweise Reifegrad-Beurteilungen der Datenqualität die Entwicklung und Erreichung von vordefinierten Qualitätserwartungen unterstützen und die Datenqualität - geordnet nach Fachgebieten oder Fachbereichen - für die wichtigsten Daten messen.

Data Intelligence

Подняться наверх