Praktische Statistik für Data Scientists
Реклама. ООО «ЛитРес», ИНН: 7719571260.
Оглавление
Peter Bruce. Praktische Statistik für Data Scientists
Praktische Statistik für Data Scientists
Inhalt
Vorwort
In diesem Buch verwendete Konventionen
Schlüsselbegriffe
Verwenden von Codebeispielen
Danksagungen
KAPITEL 1. Explorative Datenanalyse
Strukturierte Datentypen
Schlüsselbegriffe zu Datentypen
Kernideen
Weiterführende Literatur
Tabellarische Daten
Schlüsselbegriffe zu tabellarischen Daten
Data Frames und Tabellen
Nicht tabellarische Datenstrukturen
Kernideen
Weiterführende Literatur
Lagemaße
Schlüsselbegriffe zu Lagemaßen
Mittelwert
Median und andere robuste Lagemaße
Ausreißer
Beispiel: Lagemaße für Einwohnerzahlen und Mordraten
Kernideen
Weiterführende Literatur
Streuungsmaße
Schlüsselbegriffe zu Streuungsmaßen
Standardabweichung und ähnliche Maße
Die Anzahl der Freiheitsgrade und die Frage, ob n oder n – 1?
Streuungsmaße auf Basis von Perzentilen
Beispiel: Streuungsmaße für die Einwohnerzahlen der Bundesstaaten in den USA
Kernideen
Weiterführende Literatur
Exploration der Datenverteilung
Schlüsselbegriffe zur Exploration von Verteilungen
Perzentile und Box-Plots
Häufigkeitstabellen und Histogramme
Dichtediagramme und -schätzer
Kernideen
Weiterführende Literatur
Binäre und kategoriale Daten untersuchen
Schlüsselbegriffe zur Exploration kategorialer Daten
Modus
Erwartungswert
Wahrscheinlichkeiten
Kernideen
Weiterführende Literatur
Korrelation
Schlüsselbegriffe zur Korrelation
Streudiagramme
Kernideen
Weiterführende Literatur
Zwei oder mehr Variablen untersuchen
Schlüsselbegriffe zur Exploration von zwei oder mehr Variablen
Hexagonal-Binning- und Konturdiagramme (Diagramme für mehrere numerische Variablen)
Zwei kategoriale Variablen
Kategoriale und numerische Variablen
Mehrere Variablen visualisieren
Kernideen
Weiterführende Literatur
Zusammenfassung
KAPITEL 2. Daten- und Stichprobenverteilungen
Zufallsstichprobenziehung und Stichprobenverzerrung
Schlüsselbegriffe für Zufallsstichproben
Verzerrung
Zufallsauswahl
Größe versus Qualität: Wann spielt die Stichprobengröße eine Rolle?
Unterschied zwischen dem Stichproben- und dem Populationsmittelwert
Kernideen
Weiterführende Literatur
Auswahlverzerrung
Schlüsselbegriffe zur Auswahlverzerrung
Regression zur Mitte
Kernideen
Weiterführende Literatur
Stichprobenverteilung einer statistischen Größe
Schlüsselbegriffe zur Stichprobenverteilung
Zentraler Grenzwertsatz
Standardfehler
Kernideen
Weiterführende Literatur
Bootstrap-Verfahren
Schlüsselbegriffe zum Bootstrap-Verfahren
Unterschiede zwischen Resampling und dem Bootstrap-Verfahren
Kernideen
Weiterführende Literatur
Konfidenzintervalle
Schlüsselbegriffe zu Konfidenzintervallen
Kernideen
Weiterführende Literatur
Normalverteilung
Schlüsselbegriffe zur Normalverteilung
Standardnormalverteilung und Q-Q-Diagramme
Kernideen
Verteilungen mit langen Verteilungsenden
Schlüsselbegriffe für Verteilungen mit langen Verteilungsenden
Kernideen
Weiterführende Literatur
Studentsche t-Verteilung
Schlüsselbegriffe zur studentschen t-Verteilung
Kernideen
Weiterführende Literatur
Binomialverteilung
Schlüsselbegriffe zur Binomialverteilung
Kernideen
Weiterführende Literatur
Chi-Quadrat-Verteilung
Kernideen
Weiterführende Literatur
F-Verteilung
Kernideen
Weiterführende Literatur
Poisson- und verwandte Verteilungen
Schlüsselbegriffe zur Poisson- und verwandten Verteilungen
Poisson-Verteilung
Exponentialverteilung
Die Hazardrate schätzen
Weibull-Verteilung
Kernideen
Weiterführende Literatur
Zusammenfassung
KAPITEL 3. Statistische Versuche und Signifikanztests
A/B-Test
Schlüsselbegriffe zum A/B-Test
Warum eine Kontrollgruppe nutzen?
Warum lediglich A/B? Warum nicht auch C, D usw.?
Kernideen
Weiterführende Literatur
Hypothesentests
Schlüsselbegriffe für Hypothesentests
Den Zufall fehldeuten
Die Nullhypothese
Die Alternativhypothese
Einseitige und zweiseitige Hypothesentests
Kernideen
Weiterführende Literatur
Resampling
Schlüsselbegriffe zum Resampling
Permutationstest
Beispiel: Die Affinität von Nutzern zu einem Webinhalt messen (Web-Stickiness)
Exakte und Bootstrap-Permutationstests
Permutationstests: ein geeigneter Ausgangspunkt in der Data Science
Kernideen
Weiterführende Literatur
Statistische Signifikanz und p-Werte
Schlüsselbegriffe zu statistischer Signifikanz und p-Werten
p-Wert
Signifikanzniveau
Die Kontroverse um den p-Wert
Praktische Bedeutung
Fehler 1. und 2. Art
Data Science und p-Werte
Kernideen
Weiterführende Literatur
t-Tests
Schlüsselbegriffe zum t-Test
Kernideen
Weiterführende Literatur
Testen mehrerer Hypothesen
Schlüsselbegriffe zum mehrfachen Testen
Kernideen
Weiterführende Literatur
Die Anzahl der Freiheitsgrade
Schlüsselbegriffe zu Freiheitsgraden
Kernideen
Weiterführende Literatur
Varianzanalyse (ANOVA)
Schlüsselbegriffe zur Varianzanalyse
F-Statistik
Zweifaktorielle Varianzanalyse
Kernideen
Weiterführende Literatur
Chi-Quadrat-Test
Schlüsselbegriffe zum Chi-Quadrat-Test
Chi-Quadrat-Test: ein Resampling-Ansatz
Chi-Quadrat-Test: die statistische Theorie
Exakter Test nach Fisher
Wissenschaftlichen Betrug aufdecken
Relevanz in der Data Science
Kernideen
Weiterführende Literatur
Mehrarmige Banditen
Schlüsselbegriffe für mehrarmige Banditen
Kernideen
Weiterführende Literatur
Trennschärfe und Stichprobengröße
Schlüsselbegriffe zur Trennschärfe und zur Stichprobengröße
Stichprobengröße
Kernideen
Weiterführende Literatur
Zusammenfassung
KAPITEL 4. Regression und Vorhersage
Lineare Einfachregression
Schlüsselbegriffe zur linearen Einfachregression
Die Regressionsgleichung
Angepasste Werte und Residuen
Die Methode der kleinsten Quadrate
Unterschied zwischen Vorhersage- und erklärenden Modellen
Kernideen
Weiterführende Literatur
Multiple lineare Regression
Schlüsselbegriffe zur multiplen linearen Regression
Beispiel: Die King-County-Immobiliendaten
Das Modell bewerten
Kreuzvalidierung
Modellauswahl und schrittweise Regression
Gewichtete Regression
Kernideen
Weiterführende Literatur
Vorhersage mittels Regression
Schlüsselbegriffe zur Vorhersage mittels Regression
Risiken bei der Extrapolation
Konfidenz- und Prognoseintervalle
Kernideen
Regression mit Faktorvariablen
Schlüsselbegriffe zu Faktorvariablen
Darstellung durch Dummy-Variablen
Faktorvariablen mit vielen Stufen
Geordnete Faktorvariablen
Kernideen
Interpretieren der Regressionsgleichung
Schlüsselbegriffe zur Interpretation der Regressionsgleichung
Korrelierte Prädiktorvariablen
Multikollinearität
Konfundierende Variablen
Interaktions- und Haupteffekte
Kernideen
Regressionsdiagnostik
Schlüsselbegriffe zur Regressionsdiagnostik
Ausreißer
Einflussreiche Beobachtungen
Heteroskedastische, nicht normalverteilte und korrelierte Fehler
Partielle Residuendiagramme und Nichtlinearität
Kernideen
Polynomiale und Spline-Regression
Schlüsselbegriffe zur nicht linearen Regression
Polynome
Splines
Verallgemeinerte additive Modelle
Kernideen
Weiterführende Literatur
Zusammenfassung
KAPITEL 5. Klassifikation
Mehr als zwei Kategorien?
Naiver Bayes-Klassifikator
Schlüsselbegriffe zum naiven Bayes-Klassifikator
Warum eine exakte bayessche Klassifikation nicht praktikabel ist
Die naive Lösung
Numerische Prädiktorvariablen
Kernideen
Weiterführende Literatur
Diskriminanzanalyse
Schlüsselbegriffe zur Diskriminanzanalyse
Kovarianzmatrix
Lineare Diskriminanzanalyse nach Fisher
Ein einfaches Beispiel
Kernideen
Weiterführende Literatur
Logistische Regression
Schlüsselbegriffe zur logistischen Regression
Logistische Antwortfunktion und Logit-Funktion
Logistische Regression und verallgemeinerte lineare Modelle
Verallgemeinerte lineare Modelle
Vorhergesagte Werte aus der logistischen Regression
Interpretation der Koeffizienten und Odds-Ratios
Lineare und logistische Regression: Gemeinsamkeiten und Unterschiede
Modellanpassung
Maximum-Likelihood-Schätzung
Das Modell prüfen und bewerten
Analyse der Residuen
Kernideen
Weiterführende Literatur
Klassifikationsmodelle bewerten
Schlüsselbegriffe zur Evaluierung von Klassifikationsmodellen
Konfusionsmatrix
Die Problematik seltener Kategorien
Relevanz, Sensitivität und Spezifität
ROC-Kurve
Fläche unter der ROC-Kurve (AUC)
Lift
Kernideen
Weiterführende Literatur
Strategien bei unausgewogenen Daten
Schlüsselbegriffe zu unausgewogenen Daten
Undersampling
Oversampling und Up/Down Weighting
Generierung von Daten
Kostenbasierte Klassifikation
Die Vorhersagen untersuchen
Kernideen
Weiterführende Literatur
Zusammenfassung
KAPITEL 6. Statistisches maschinelles Lernen
K-Nächste-Nachbarn
Schlüsselbegriffe zur Methode der K-Nächsten-Nachbarn
Ein kleines Beispiel: Vorhersage von Kreditausfällen
Distanzmaße
1-aus-n-Codierung
Standardisierung (Normierung, z-Werte)
K festlegen
KNN zur Merkmalskonstruktion
Kernideen
Baummodelle
Schlüsselbegriffe zu Baummodellen
Ein einfaches Beispiel
Der Recursive-Partitioning-Algorithmus
Homogenität und Unreinheit messen
Den Baum daran hindern, weiterzuwachsen
Die Komplexität eines Baums in R kontrollieren
Die Komplexität eines Baums in Python kontrollieren
Vorhersage eines kontinuierlichen Werts
Wie Bäume verwendet werden
Kernideen
Weiterführende Literatur
Bagging und Random Forests
Schlüsselbegriffe zum Bagging und zu Random Forests
Bagging
Random Forest
Variablenwichtigkeit
Hyperparameter
Kernideen
Boosting
Schlüsselbegriffe zum Boosting
Der Boosting-Algorithmus
XGBoost
Regularisierung: Überanpassung vermeiden
Ridge und Lasso Regression
Hyperparameter und Kreuzvalidierung
Hyperparameter beim XGBoost-Algorithmus
Kernideen
Zusammenfassung
KAPITEL 7. Unüberwachtes Lernen
Hauptkomponentenanalyse
Schlüsselbegriffe zur Hauptkomponentenanalyse
Ein einfaches Beispiel
Die Hauptkomponenten berechnen
Die Hauptkomponenten interpretieren
Korrespondenzanalyse
Kernideen
Weiterführende Literatur
K-Means-Clustering
Schlüsselbegriffe zu K-Means-Clustering
Ein einfaches Beispiel
Der K-Means-Algorithmus
Die Cluster interpretieren
Die Anzahl von Clustern bestimmen
Kernideen
Hierarchische Clusteranalyse
Schlüsselbegriffe zur hierarchischen Clusteranalyse
Ein einfaches Beispiel
Das Dendrogramm
Der agglomerative Algorithmus
Ähnlichkeitsmaße
Kernideen
Modellbasierte Clusteranalyse
Multivariate Normalverteilung
Zusammengesetzte Normalverteilungen (gaußsche Mischverteilungen)
Die Anzahl der Cluster bestimmen
Kernideen
Weiterführende Literatur
Skalierung und kategoriale Variablen
Schlüsselbegriffe zur Skalierung von Daten
Variablen skalieren
Dominierende Variablen
Kategoriale Daten und die Gower-Distanz
Probleme bei der Clusteranalyse mit verschiedenen Datentypen
Kernideen
Zusammenfassung
Quellenangaben
Fußnoten. Kapitel 1: Explorative Datenanalyse
Kapitel 2: Daten- und Stichprobenverteilungen
Kapitel 3: Statistische Versuche und Signifikanztests
Kapitel 4: Regression und Vorhersage
Kapitel 5: Klassifikation
Kapitel 6: Statistisches maschinelles Lernen
Kapitel 7: Unüberwachtes Lernen
Index. A
B
C
D
E
F
G
H
I
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Z
Über die Autoren
Über den Übersetzer
Kolophon
Отрывок из книги
50+ essenzielle Konzepte mit R und Python
Peter Bruce, Andrew Bruce & Peter Gedeck
.....
Der Recursive-Partitioning-Algorithmus
Homogenität und Unreinheit messen
.....