Читать книгу R für Data Science - Hadley Wickham - Страница 7
Was Sie lernen werden
ОглавлениеData Science ist ein riesiges Feld, und Sie werden es wahrscheinlich nicht meistern, wenn Sie nur ein einziges Buch lesen. Mit diesem Buch können Sie sich eine solide Basis für die wichtigsten Tools erarbeiten. Unser Modell der erforderlichen Tools in einem typischen Data-Science-Projekt sieht etwa wie folgt aus:
Zuerst müssen Sie Daten in R importieren. In der Regel heißt das, dass Sie gespeicherte Daten aus einer Datei, Datenbank oder Web-API übernehmen und in einen Dataframe in R laden. Wenn Sie Ihre Daten nicht nach R übernehmen können, lässt sich keine Data Science damit anstellen!
Nachdem Sie die Daten importiert haben, empfiehlt es sich, sie zu bereinigen oder aufzubereiten. Dabei speichert man die Daten in einer konsistenten Form, die die Semantik des Datensets mit der Art und Weise der Speicherung abstimmt. Kurz gesagt, wenn Ihre Daten bereinigt sind, ist jede Spalte eine Variable, und jede Zeile ist eine Beobachtung. Das Bereinigen von Daten ist wichtig, weil Sie sich wegen der konsistenten Struktur auf Fragen über die Daten konzentrieren können und nicht damit abmühen müssen, die Daten für verschiedene Funktionen in die richtige Form zu bekommen.
Wenn die Daten bereinigt sind, werden sie oftmals in einem ersten Schritt transformiert. Die Transformation schließt das Einengen auf interessierende Beobachtungen ein (wie zum Beispiel alle Personen in einer Stadt oder alle Daten aus dem letzten Jahr), das Erstellen neuer Variablen, die Funktionen von vorhandenen Variablen sind (wie das Berechnen der Geschwindigkeit aus Weg und Zeit), und das Berechnen einer Menge von Zusammenfassungsstatistiken (wie Anzahlen oder Mittelwerte). Bereinigen und Transformieren bezeichnet man zusammengenommen als Aufbereiten – im Englischen Wrangling genannt.
Nachdem Sie über bereinigte Daten mit den benötigten Variablen verfügen, gibt es zwei Hauptmodule der Wissensgenerierung: Visualisierung und Modellierung. Diese weisen viele Stärken und Schwächen auf, die komplementär zueinander sind, sodass jede reale Analyse diese Schritte mehrfach durchlaufen wird.
Visualisierung ist eine fundamentale menschliche Aktivität. Eine gute Visualisierung zeigt Ihnen Dinge, die Sie nicht erwartet haben, oder wirft neue Fragen über die Daten auf. Außerdem kann eine gute Visualisierung darauf hinweisen, dass Sie die falschen Fragen stellen oder andersartige Daten erfassen müssen. Visualisierungen können Sie überraschen, lassen sich aber nicht besonders gut normieren, weil ein Mensch sie interpretieren muss.
Modelle ergänzen die Visualisierung. Wenn Sie einmal Ihre Fragen ausreichend genau gestellt haben, können Sie sie mithilfe eines Modells beantworten. Modelle sind ein fundamentales mathematisches oder rechentechnisches Werkzeug, sodass sie sich im Allgemeinen gut skalieren lassen. Selbst wenn das nicht zutrifft, ist es normalerweise billiger, mehr Computer zu kaufen als mehr Gehirne! Doch jedes Modell geht von Annahmen aus, und seinem Wesen nach kann ein Modell seine eigenen Annahmen nicht beantworten. Ein Modell kann Sie also grundsätzlich nicht überraschen.
Der letzte Schritt bei Data Science ist die Kommunikation, ein absolut entscheidender Teil jedes Datenanalyseprojekts. Es spielt keine Rolle, wie gut Ihre Modelle und die Visualisierung Sie dazu gebracht haben, die Daten zu verstehen, sofern Sie nicht auch Ihre Ergebnisse für andere kommunizieren können.
Den Rahmen für alle diese Tools bildet die Programmierung. Als übergreifendes Tool haben Sie mit Programmierung in jedem Teil des Projekts zu tun. Dabei brauchen Sie kein Programmierexperte zu sein, um ein Data Scientist zu sein, doch wenn Sie mehr über Programmierung lernen, zahlt sich das aus, denn als besserer Programmierer können Sie häufig anfallende Aufgaben automatisieren und neue Probleme wesentlich leichter lösen. Diese Tools verwenden Sie in fast jedem Data-Science-Projekt, doch für die meisten Projekte sind sie nicht ausreichend. Als Faustregel gilt ein 80-20-Verhältnis: Etwa 80% jedes Projekts können Sie angehen mit den Tools, die Sie in diesem Buch kennenlernen, doch um die restlichen 20% zu lösen, brauchen Sie weitere Tools. Das ganze Buch hindurch verweisen wir auf Quellen, wo Sie mehr zu den jeweiligen Themen lernen können.