Читать книгу Predictive Analytic und die Haftung für fehlerhafte Ergebnisse gegenüber betroffenen Einzelpersonen - Susanne Mentel - Страница 43
III. Strukturierung, Aufbereitung und Datenbewertung
ОглавлениеBevor Daten analysiert werden können, müssen sie in einem ersten Schritt einer Analyse zugänglich gemacht werden. Für eine breite Basis an Ausgangsdaten empfiehlt es sich, Daten unterschiedlichster Herkunft zu verwenden. Dies hat zur Folge, dass sowohl strukturierte als auch unstrukturierte Daten gemeinsam verarbeitet werden müssen. Nachdem eine Vielzahl der für Predictive Analytic verwendeten Daten unstrukturiert vorliegt,130 die meisten Datenanalyseverfahren aber nur strukturierte Daten akzeptieren, müssen diese zunächst aus ihren Quellen extrahiert werden.131 Dieser Aspekt macht den ersten erforderlichen Schritt auf dem Weg zu einer Vorhersage deutlich: die Daten müssen bearbeitet und einer einheitlichen Form zugeführt werden. Dieser Vorgang wird meist in einem eigenen Arbeitsgang den Analysen vorgelagert sein. Es existiert jedoch auch bereits Analyse-Software, die in der Lage ist, Daten unterschiedlichster Struktur zu vereinheitlichen und direkt im Anschluss zu analysieren.132 Es ist also durchaus möglich, den Schritt der Strukturierung und Aufbereitung der Daten in die Software zu integrieren, in der die Daten später analysiert werden.133 Der Prozess der Aufbereitung und Vereinigung von unterschiedlich strukturierten Datenquellen innerhalb einer Datenbank wird als ETL, stehend für „Extract, Transform, Load“, bezeichnet.134 Die Datenvorbereitung ist einer der zeitintensivsten Faktoren und kann bis zu 70-80 % der Arbeitszeit eines Data Scientists betragen.135