Читать книгу Data Science - Michael Zimmer - Страница 18

»Garbage in, garbage out«

Оглавление

Im Data Warehousing war der ETL-Prozess lange Zeit ein unterschätzter Faktor. Dabei kommt gerade diesem Teil des Data-Warehouse-Prozesses aus verschiedenen Gründen eine zentrale Rolle zu. Zum einen ist die Auswahl geeigneter Datenquellen von entscheidender Bedeutung. Nur auf der Basis qualitativ hochwertiger Daten kann auch ein qualitativ hochwertiges Ergebnis im Rahmen der bereitgestellten Analysen erwartet werden. Wird dies von den Entwicklern zu wenig beachtet, können die am Ende zur Verfügung gestellten Berichte noch so schön sein, es gilt weiterhin die altbewährte Erkenntnis: »Garbage in, garbage out.«4

Zum anderen hat sich immer wieder gezeigt, dass der Workload, der mit dem ETL-Prozess verbunden ist, tendenziell unterschätzt wird. Auch wenn mittlerweile mächtige Tools für die Datenbereitstellung genutzt werden, ist vor allem die Bearbeitung von Daten mit Qualitätsmängeln nach wie vor aufwendig.

Gerade diesem Phänomen begegnet man auch im Zusammenhang mit Data Science wieder. Auch hier ist zu beobachten, dass die grundlegende Bedeutung der Data Preparation zu Beginn eines Projekts oder wenn ein Unternehmen plant, Data Science einzuführen, nicht erkannt und oftmals der damit zusammenhängende Arbeitsaufwand unterschätzt wird. Statistiken zufolge verwenden Data Scientists in der Praxis bis zu 80% ihrer Zeit für das Vorbereiten der Daten, also das Sammeln, Bereinigen und Organisieren der Daten. Kelleher und Tierney stellen dazu treffenderweise fest:

»But the simple truth is that no matter how good your data analysis is, it won’t identify useful patterns unless it is applied to the right data.«

[Kelleher & Tierney 2018, S. 67]

Auf die Möglichkeiten, wie man der Data Science die notwendigen Daten oder Datenzugriffe im Unternehmen ermöglicht, wird später in Kapitel 9 näher eingegangen.

Data Science

Подняться наверх