Читать книгу Praktische Statistik für Data Scientists - Peter Bruce - Страница 5

Inhalt

Оглавление

Vorwort

1Explorative Datenanalyse

Strukturierte Datentypen

Weiterführende Literatur

Tabellarische Daten

Data Frames und Tabellen

Nicht tabellarische Datenstrukturen

Weiterführende Literatur

Lagemaße

Mittelwert

Median und andere robuste Lagemaße

Beispiel: Lagemaße für Einwohnerzahlen und Mordraten

Weiterführende Literatur

Streuungsmaße

Standardabweichung und ähnliche Maße

Streuungsmaße auf Basis von Perzentilen

Beispiel: Streuungsmaße für die Einwohnerzahlen der Bundesstaaten in den USA

Weiterführende Literatur

Exploration der Datenverteilung

Perzentile und Box-Plots

Häufigkeitstabellen und Histogramme

Dichtediagramme und -schätzer

Weiterführende Literatur

Binäre und kategoriale Daten untersuchen

Modus

Erwartungswert

Wahrscheinlichkeiten

Weiterführende Literatur

Korrelation

Streudiagramme

Weiterführende Literatur

Zwei oder mehr Variablen untersuchen

Hexagonal-Binning- und Konturdiagramme (Diagramme für mehrere numerische Variablen)

Zwei kategoriale Variablen

Kategoriale und numerische Variablen

Mehrere Variablen visualisieren

Weiterführende Literatur

Zusammenfassung

2Daten- und Stichprobenverteilungen

Zufallsstichprobenziehung und Stichprobenverzerrung

Verzerrung

Zufallsauswahl

Größe versus Qualität: Wann spielt die Stichprobengröße eine Rolle?

Unterschied zwischen dem Stichproben- und dem Populationsmittelwert

Weiterführende Literatur

Auswahlverzerrung

Regression zur Mitte

Weiterführende Literatur

Stichprobenverteilung einer statistischen Größe

Zentraler Grenzwertsatz

Standardfehler

Weiterführende Literatur

Bootstrap-Verfahren

Unterschiede zwischen Resampling und dem Bootstrap-Verfahren

Weiterführende Literatur

Konfidenzintervalle

Weiterführende Literatur

Normalverteilung

Standardnormalverteilung und Q-Q-Diagramme

Verteilungen mit langen Verteilungsenden

Weiterführende Literatur

Studentsche t-Verteilung

Weiterführende Literatur

Binomialverteilung

Weiterführende Literatur

Chi-Quadrat-Verteilung

Weiterführende Literatur

F-Verteilung

Weiterführende Literatur

Poisson- und verwandte Verteilungen

Poisson-Verteilung

Exponentialverteilung

Die Hazardrate schätzen

Weibull-Verteilung

Weiterführende Literatur

Zusammenfassung

3Statistische Versuche und Signifikanztests

A/B-Test

Warum eine Kontrollgruppe nutzen?

Warum lediglich A/B? Warum nicht auch C, D usw.?

Weiterführende Literatur

Hypothesentests

Die Nullhypothese

Die Alternativhypothese

Einseitige und zweiseitige Hypothesentests

Weiterführende Literatur

Resampling

Permutationstest

Beispiel: Die Affinität von Nutzern zu einem Webinhalt messen (Web-Stickiness)

Exakte und Bootstrap-Permutationstests

Permutationstests: ein geeigneter Ausgangspunkt in der Data Science

Weiterführende Literatur

Statistische Signifikanz und p-Werte

p-Wert

Signifikanzniveau

Fehler 1. und 2. Art

Data Science und p-Werte

Weiterführende Literatur

t-Tests

Weiterführende Literatur

Testen mehrerer Hypothesen

Weiterführende Literatur

Die Anzahl der Freiheitsgrade

Weiterführende Literatur

Varianzanalyse (ANOVA)

F-Statistik

Zweifaktorielle Varianzanalyse

Weiterführende Literatur

Chi-Quadrat-Test

Chi-Quadrat-Test: ein Resampling-Ansatz

Chi-Quadrat-Test: die statistische Theorie

Exakter Test nach Fisher

Relevanz in der Data Science

Weiterführende Literatur

Mehrarmige Banditen

Weiterführende Literatur

Trennschärfe und Stichprobengröße

Stichprobengröße

Weiterführende Literatur

Zusammenfassung

4Regression und Vorhersage

Lineare Einfachregression

Die Regressionsgleichung

Angepasste Werte und Residuen

Die Methode der kleinsten Quadrate

Unterschied zwischen Vorhersage- und erklärenden Modellen

Weiterführende Literatur

Multiple lineare Regression

Beispiel: Die King-County-Immobiliendaten

Das Modell bewerten

Kreuzvalidierung

Modellauswahl und schrittweise Regression

Gewichtete Regression

Weiterführende Literatur

Vorhersage mittels Regression

Risiken bei der Extrapolation

Konfidenz- und Prognoseintervalle

Regression mit Faktorvariablen

Darstellung durch Dummy-Variablen

Faktorvariablen mit vielen Stufen

Geordnete Faktorvariablen

Interpretieren der Regressionsgleichung

Korrelierte Prädiktorvariablen

Multikollinearität

Konfundierende Variablen

Interaktions- und Haupteffekte

Regressionsdiagnostik

Ausreißer

Einflussreiche Beobachtungen

Heteroskedastische, nicht normalverteilte und korrelierte Fehler

Partielle Residuendiagramme und Nichtlinearität

Polynomiale und Spline-Regression

Polynome

Splines

Verallgemeinerte additive Modelle

Weiterführende Literatur

Zusammenfassung

5Klassifikation

Naiver Bayes-Klassifikator

Warum eine exakte bayessche Klassifikation nicht praktikabel ist

Die naive Lösung

Numerische Prädiktorvariablen

Weiterführende Literatur

Diskriminanzanalyse

Kovarianzmatrix

Lineare Diskriminanzanalyse nach Fisher

Ein einfaches Beispiel

Weiterführende Literatur

Logistische Regression

Logistische Antwortfunktion und Logit-Funktion

Logistische Regression und verallgemeinerte lineare Modelle

Verallgemeinerte lineare Modelle

Vorhergesagte Werte aus der logistischen Regression

Interpretation der Koeffizienten und Odds-Ratios

Lineare und logistische Regression: Gemeinsamkeiten und Unterschiede

Das Modell prüfen und bewerten

Weiterführende Literatur

Klassifikationsmodelle bewerten

Konfusionsmatrix

Die Problematik seltener Kategorien

Relevanz, Sensitivität und Spezifität

ROC-Kurve

Fläche unter der ROC-Kurve (AUC)

Lift

Weiterführende Literatur

Strategien bei unausgewogenen Daten

Undersampling

Oversampling und Up/Down Weighting

Generierung von Daten

Kostenbasierte Klassifikation

Die Vorhersagen untersuchen

Weiterführende Literatur

Zusammenfassung

6Statistisches maschinelles Lernen

K-Nächste-Nachbarn

Ein kleines Beispiel: Vorhersage von Kreditausfällen

Distanzmaße

1-aus-n-Codierung

Standardisierung (Normierung, z-Werte)

K festlegen

KNN zur Merkmalskonstruktion

Baummodelle

Ein einfaches Beispiel

Der Recursive-Partitioning-Algorithmus

Homogenität und Unreinheit messen

Den Baum daran hindern, weiterzuwachsen

Vorhersage eines kontinuierlichen Werts

Wie Bäume verwendet werden

Weiterführende Literatur

Bagging und Random Forests

Bagging

Random Forest

Variablenwichtigkeit

Hyperparameter

Boosting

Der Boosting-Algorithmus

XGBoost

Regularisierung: Überanpassung vermeiden

Hyperparameter und Kreuzvalidierung

Zusammenfassung

7Unüberwachtes Lernen

Hauptkomponentenanalyse

Ein einfaches Beispiel

Die Hauptkomponenten berechnen

Die Hauptkomponenten interpretieren

Korrespondenzanalyse

Weiterführende Literatur

K-Means-Clustering

Ein einfaches Beispiel

Der K-Means-Algorithmus

Die Cluster interpretieren

Die Anzahl von Clustern bestimmen

Hierarchische Clusteranalyse

Ein einfaches Beispiel

Das Dendrogramm

Der agglomerative Algorithmus

Ähnlichkeitsmaße

Modellbasierte Clusteranalyse

Multivariate Normalverteilung

Zusammengesetzte Normalverteilungen (gaußsche Mischverteilungen)

Die Anzahl der Cluster bestimmen

Weiterführende Literatur

Skalierung und kategoriale Variablen

Variablen skalieren

Dominierende Variablen

Kategoriale Daten und die Gower-Distanz

Probleme bei der Clusteranalyse mit verschiedenen Datentypen

Zusammenfassung

Quellenangaben

Index

Praktische Statistik für Data Scientists

Подняться наверх