Читать книгу Praktische Statistik für Data Scientists - Peter Bruce - Страница 5
На сайте Литреса книга снята с продажи.
Inhalt
ОглавлениеVorwort
1Explorative Datenanalyse
Strukturierte Datentypen
Weiterführende Literatur
Tabellarische Daten
Data Frames und Tabellen
Nicht tabellarische Datenstrukturen
Weiterführende Literatur
Lagemaße
Mittelwert
Median und andere robuste Lagemaße
Beispiel: Lagemaße für Einwohnerzahlen und Mordraten
Weiterführende Literatur
Streuungsmaße
Standardabweichung und ähnliche Maße
Streuungsmaße auf Basis von Perzentilen
Beispiel: Streuungsmaße für die Einwohnerzahlen der Bundesstaaten in den USA
Weiterführende Literatur
Exploration der Datenverteilung
Perzentile und Box-Plots
Häufigkeitstabellen und Histogramme
Dichtediagramme und -schätzer
Weiterführende Literatur
Binäre und kategoriale Daten untersuchen
Modus
Erwartungswert
Wahrscheinlichkeiten
Weiterführende Literatur
Korrelation
Streudiagramme
Weiterführende Literatur
Zwei oder mehr Variablen untersuchen
Hexagonal-Binning- und Konturdiagramme (Diagramme für mehrere numerische Variablen)
Zwei kategoriale Variablen
Kategoriale und numerische Variablen
Mehrere Variablen visualisieren
Weiterführende Literatur
Zusammenfassung
2Daten- und Stichprobenverteilungen
Zufallsstichprobenziehung und Stichprobenverzerrung
Verzerrung
Zufallsauswahl
Größe versus Qualität: Wann spielt die Stichprobengröße eine Rolle?
Unterschied zwischen dem Stichproben- und dem Populationsmittelwert
Weiterführende Literatur
Auswahlverzerrung
Regression zur Mitte
Weiterführende Literatur
Stichprobenverteilung einer statistischen Größe
Zentraler Grenzwertsatz
Standardfehler
Weiterführende Literatur
Bootstrap-Verfahren
Unterschiede zwischen Resampling und dem Bootstrap-Verfahren
Weiterführende Literatur
Konfidenzintervalle
Weiterführende Literatur
Normalverteilung
Standardnormalverteilung und Q-Q-Diagramme
Verteilungen mit langen Verteilungsenden
Weiterführende Literatur
Studentsche t-Verteilung
Weiterführende Literatur
Binomialverteilung
Weiterführende Literatur
Chi-Quadrat-Verteilung
Weiterführende Literatur
F-Verteilung
Weiterführende Literatur
Poisson- und verwandte Verteilungen
Poisson-Verteilung
Exponentialverteilung
Die Hazardrate schätzen
Weibull-Verteilung
Weiterführende Literatur
Zusammenfassung
3Statistische Versuche und Signifikanztests
A/B-Test
Warum eine Kontrollgruppe nutzen?
Warum lediglich A/B? Warum nicht auch C, D usw.?
Weiterführende Literatur
Hypothesentests
Die Nullhypothese
Die Alternativhypothese
Einseitige und zweiseitige Hypothesentests
Weiterführende Literatur
Resampling
Permutationstest
Beispiel: Die Affinität von Nutzern zu einem Webinhalt messen (Web-Stickiness)
Exakte und Bootstrap-Permutationstests
Permutationstests: ein geeigneter Ausgangspunkt in der Data Science
Weiterführende Literatur
Statistische Signifikanz und p-Werte
p-Wert
Signifikanzniveau
Fehler 1. und 2. Art
Data Science und p-Werte
Weiterführende Literatur
t-Tests
Weiterführende Literatur
Testen mehrerer Hypothesen
Weiterführende Literatur
Die Anzahl der Freiheitsgrade
Weiterführende Literatur
Varianzanalyse (ANOVA)
F-Statistik
Zweifaktorielle Varianzanalyse
Weiterführende Literatur
Chi-Quadrat-Test
Chi-Quadrat-Test: ein Resampling-Ansatz
Chi-Quadrat-Test: die statistische Theorie
Exakter Test nach Fisher
Relevanz in der Data Science
Weiterführende Literatur
Mehrarmige Banditen
Weiterführende Literatur
Trennschärfe und Stichprobengröße
Stichprobengröße
Weiterführende Literatur
Zusammenfassung
4Regression und Vorhersage
Lineare Einfachregression
Die Regressionsgleichung
Angepasste Werte und Residuen
Die Methode der kleinsten Quadrate
Unterschied zwischen Vorhersage- und erklärenden Modellen
Weiterführende Literatur
Multiple lineare Regression
Beispiel: Die King-County-Immobiliendaten
Das Modell bewerten
Kreuzvalidierung
Modellauswahl und schrittweise Regression
Gewichtete Regression
Weiterführende Literatur
Vorhersage mittels Regression
Risiken bei der Extrapolation
Konfidenz- und Prognoseintervalle
Regression mit Faktorvariablen
Darstellung durch Dummy-Variablen
Faktorvariablen mit vielen Stufen
Geordnete Faktorvariablen
Interpretieren der Regressionsgleichung
Korrelierte Prädiktorvariablen
Multikollinearität
Konfundierende Variablen
Interaktions- und Haupteffekte
Regressionsdiagnostik
Ausreißer
Einflussreiche Beobachtungen
Heteroskedastische, nicht normalverteilte und korrelierte Fehler
Partielle Residuendiagramme und Nichtlinearität
Polynomiale und Spline-Regression
Polynome
Splines
Verallgemeinerte additive Modelle
Weiterführende Literatur
Zusammenfassung
5Klassifikation
Naiver Bayes-Klassifikator
Warum eine exakte bayessche Klassifikation nicht praktikabel ist
Die naive Lösung
Numerische Prädiktorvariablen
Weiterführende Literatur
Diskriminanzanalyse
Kovarianzmatrix
Lineare Diskriminanzanalyse nach Fisher
Ein einfaches Beispiel
Weiterführende Literatur
Logistische Regression
Logistische Antwortfunktion und Logit-Funktion
Logistische Regression und verallgemeinerte lineare Modelle
Verallgemeinerte lineare Modelle
Vorhergesagte Werte aus der logistischen Regression
Interpretation der Koeffizienten und Odds-Ratios
Lineare und logistische Regression: Gemeinsamkeiten und Unterschiede
Das Modell prüfen und bewerten
Weiterführende Literatur
Klassifikationsmodelle bewerten
Konfusionsmatrix
Die Problematik seltener Kategorien
Relevanz, Sensitivität und Spezifität
ROC-Kurve
Fläche unter der ROC-Kurve (AUC)
Lift
Weiterführende Literatur
Strategien bei unausgewogenen Daten
Undersampling
Oversampling und Up/Down Weighting
Generierung von Daten
Kostenbasierte Klassifikation
Die Vorhersagen untersuchen
Weiterführende Literatur
Zusammenfassung
6Statistisches maschinelles Lernen
K-Nächste-Nachbarn
Ein kleines Beispiel: Vorhersage von Kreditausfällen
Distanzmaße
1-aus-n-Codierung
Standardisierung (Normierung, z-Werte)
K festlegen
KNN zur Merkmalskonstruktion
Baummodelle
Ein einfaches Beispiel
Der Recursive-Partitioning-Algorithmus
Homogenität und Unreinheit messen
Den Baum daran hindern, weiterzuwachsen
Vorhersage eines kontinuierlichen Werts
Wie Bäume verwendet werden
Weiterführende Literatur
Bagging und Random Forests
Bagging
Random Forest
Variablenwichtigkeit
Hyperparameter
Boosting
Der Boosting-Algorithmus
XGBoost
Regularisierung: Überanpassung vermeiden
Hyperparameter und Kreuzvalidierung
Zusammenfassung
7Unüberwachtes Lernen
Hauptkomponentenanalyse
Ein einfaches Beispiel
Die Hauptkomponenten berechnen
Die Hauptkomponenten interpretieren
Korrespondenzanalyse
Weiterführende Literatur
K-Means-Clustering
Ein einfaches Beispiel
Der K-Means-Algorithmus
Die Cluster interpretieren
Die Anzahl von Clustern bestimmen
Hierarchische Clusteranalyse
Ein einfaches Beispiel
Das Dendrogramm
Der agglomerative Algorithmus
Ähnlichkeitsmaße
Modellbasierte Clusteranalyse
Multivariate Normalverteilung
Zusammengesetzte Normalverteilungen (gaußsche Mischverteilungen)
Die Anzahl der Cluster bestimmen
Weiterführende Literatur
Skalierung und kategoriale Variablen
Variablen skalieren
Dominierende Variablen
Kategoriale Daten und die Gower-Distanz
Probleme bei der Clusteranalyse mit verschiedenen Datentypen
Zusammenfassung
Quellenangaben
Index