Читать книгу R für Data Science - Hadley Wickham - Страница 13
Hypothesenbestätigung
ОглавлениеDie Datenanalyse kann man in zwei Lager einteilen: Hypothesengenerierung und Hypothesenbestätigung (manchmal auch bestätigende Analyse genannt). Der Schwerpunkt dieses Buchs liegt eindeutig auf der Hypothesengenerierung oder Datenexploration. Hier blicken wir intensiv auf die Daten und generieren – in Kombination mit Ihrer Sachkenntnis – viele interessante Hypothesen, die bei der Erklärung helfen, warum sich die Daten gerade auf diese Art und Weise verhalten. Diese Hypothesen bewerten Sie formlos, wobei Sie Ihre Skepsis nutzen, um den Daten in verschiedener Art und Weise verborgene Informationen zu entlocken.
Das Gegenstück zur Hypothesengenerierung ist die Hypothesenbestätigung. Diese ist aus zwei Gründen schwierig:
Man benötigt ein genaues mathematisches Modell, um falsifizierbare Vorhersagen generieren zu können. Hierzu sind oftmals erhebliche statistische Fachkenntnisse erforderlich.
Eine Beobachtung lässt sich nur einmal nutzen, um eine Hypothese zu bestätigen. Sobald man sie mehrmals verwendet, kommt man zur explorativen Datenanalyse zurück. Um eine Hypothesenbestätigung durchzuführen, müssen Sie also Ihren Analyseplan »vorab registrieren« (im Voraus ausarbeiten) und nicht von ihm abweichen, selbst wenn Sie bereits die Daten gesehen haben. In Teil IV sprechen wir über einige Strategien, die dieses Vorgehen erleichtern.
Es ist üblich, die Modellierung als Tool für die Hypothesenbestätigung und die Visualisierung als Tool für die Hypothesengenerierung aufzufassen. Doch diese Zweiteilung ist falsch: Modelle dienen oft zur Erkundung, und mit etwas Sorgfalt können Sie Visualisierung für die Bestätigung nutzen. Der Unterschied zeigt sich vor allem darin, wie oft man jede Beobachtung betrachtet: Wenn Sie sie nur einmal ansehen, handelt es sich um eine Bestätigung, und wenn Sie sie mehrfach ansehen, ist es eine Exploration.