Читать книгу Praktische Statistik für Data Scientists - Peter Bruce - Страница 5
Inhalt
ОглавлениеNicht tabellarische Datenstrukturen
Median und andere robuste Lagemaße
Beispiel: Lagemaße für Einwohnerzahlen und Mordraten
Standardabweichung und ähnliche Maße
Streuungsmaße auf Basis von Perzentilen
Beispiel: Streuungsmaße für die Einwohnerzahlen der Bundesstaaten in den USA
Exploration der Datenverteilung
Häufigkeitstabellen und Histogramme
Binäre und kategoriale Daten untersuchen
Zwei oder mehr Variablen untersuchen
Hexagonal-Binning- und Konturdiagramme (Diagramme für mehrere numerische Variablen)
Kategoriale und numerische Variablen
Mehrere Variablen visualisieren
2Daten- und Stichprobenverteilungen
Zufallsstichprobenziehung und Stichprobenverzerrung
Größe versus Qualität: Wann spielt die Stichprobengröße eine Rolle?
Unterschied zwischen dem Stichproben- und dem Populationsmittelwert
Stichprobenverteilung einer statistischen Größe
Unterschiede zwischen Resampling und dem Bootstrap-Verfahren
Standardnormalverteilung und Q-Q-Diagramme
Verteilungen mit langen Verteilungsenden
Poisson- und verwandte Verteilungen
3Statistische Versuche und Signifikanztests
Warum eine Kontrollgruppe nutzen?
Warum lediglich A/B? Warum nicht auch C, D usw.?
Einseitige und zweiseitige Hypothesentests
Beispiel: Die Affinität von Nutzern zu einem Webinhalt messen (Web-Stickiness)
Exakte und Bootstrap-Permutationstests
Permutationstests: ein geeigneter Ausgangspunkt in der Data Science
Statistische Signifikanz und p-Werte
Zweifaktorielle Varianzanalyse
Chi-Quadrat-Test: ein Resampling-Ansatz
Chi-Quadrat-Test: die statistische Theorie
Trennschärfe und Stichprobengröße
Die Methode der kleinsten Quadrate
Unterschied zwischen Vorhersage- und erklärenden Modellen
Beispiel: Die King-County-Immobiliendaten
Modellauswahl und schrittweise Regression
Konfidenz- und Prognoseintervalle
Regression mit Faktorvariablen
Darstellung durch Dummy-Variablen
Faktorvariablen mit vielen Stufen
Interpretieren der Regressionsgleichung
Korrelierte Prädiktorvariablen
Interaktions- und Haupteffekte
Heteroskedastische, nicht normalverteilte und korrelierte Fehler
Partielle Residuendiagramme und Nichtlinearität
Polynomiale und Spline-Regression
Verallgemeinerte additive Modelle
Warum eine exakte bayessche Klassifikation nicht praktikabel ist
Lineare Diskriminanzanalyse nach Fisher
Logistische Antwortfunktion und Logit-Funktion
Logistische Regression und verallgemeinerte lineare Modelle
Verallgemeinerte lineare Modelle
Vorhergesagte Werte aus der logistischen Regression
Interpretation der Koeffizienten und Odds-Ratios
Lineare und logistische Regression: Gemeinsamkeiten und Unterschiede
Das Modell prüfen und bewerten
Klassifikationsmodelle bewerten
Die Problematik seltener Kategorien
Relevanz, Sensitivität und Spezifität
Fläche unter der ROC-Kurve (AUC)
Strategien bei unausgewogenen Daten
Oversampling und Up/Down Weighting
6Statistisches maschinelles Lernen
Ein kleines Beispiel: Vorhersage von Kreditausfällen
Standardisierung (Normierung, z-Werte)
Der Recursive-Partitioning-Algorithmus
Homogenität und Unreinheit messen
Den Baum daran hindern, weiterzuwachsen
Vorhersage eines kontinuierlichen Werts
Regularisierung: Überanpassung vermeiden
Hyperparameter und Kreuzvalidierung
Die Hauptkomponenten berechnen
Die Hauptkomponenten interpretieren
Die Anzahl von Clustern bestimmen
Zusammengesetzte Normalverteilungen (gaußsche Mischverteilungen)
Die Anzahl der Cluster bestimmen
Skalierung und kategoriale Variablen
Kategoriale Daten und die Gower-Distanz
Probleme bei der Clusteranalyse mit verschiedenen Datentypen