Praktische Statistik für Data Scientists

Praktische Statistik für Data Scientists
Автор книги: id книги: 2029872     Оценка: 0.0     Голосов: 0     Отзывы, комментарии: 0 2214,88 руб.     (21,78$) Читать книгу Купить и скачать книгу Купить бумажную книгу Электронная книга Жанр: Математика Правообладатель и/или издательство: Bookwire Дата добавления в каталог КнигаЛит: ISBN: 9783960104681 Скачать фрагмент в формате   fb2   fb2.zip Возрастное ограничение: 0+ Оглавление Отрывок из книги

Реклама. ООО «ЛитРес», ИНН: 7719571260.

Описание книги

Statistische Konzepte aus der Perspektive von Data Scientists erläutert Das Buch stellt die Verbindung zwischen nützlichen statistischen Prinzipien und der heutigen Datenanalyse-Praxis her Ermöglicht Data Scientists, ihr Wissen über Statistik auf ein neues Level zu bringen Übersetzung der 2. Auflage des US-Bestsellers mit Beispielen in Python und R Statistische Methoden sind ein zentraler Bestandteil der Arbeit mit Daten, doch nur wenige Data Scientists haben eine formale statistische Ausbildung. In Kursen und Büchern über die Grundlagen der Statistik wird das Thema aber selten aus der Sicht von Data Scientists behandelt. Viele stellen daher fest, dass ihnen eine tiefere statistische Perspektive auf ihre Daten fehlt.Dieses praxisorientierte Handbuch mit zahlreichen Beispielen in Python und R erklärt Ihnen, wie Sie verschiedene statistische Methoden speziell in den Datenwissenschaften anwenden. Es zeigt Ihnen auch, wie Sie den falschen Gebrauch von statistischen Methoden vermeiden können, und gibt Ratschläge, welche statistischen Konzepte für die Datenwissenschaften besonders relevant sind. Wenn Sie mit R oder Python vertraut sind, ermöglicht diese zugängliche, gut lesbare Referenz es Ihnen, Ihr statistisches Wissen für die Praxis deutlich auszubauen.

Оглавление

Peter Bruce. Praktische Statistik für Data Scientists

Praktische Statistik für Data Scientists

Inhalt

Vorwort

In diesem Buch verwendete Konventionen

Schlüsselbegriffe

Verwenden von Codebeispielen

Danksagungen

KAPITEL 1. Explorative Datenanalyse

Strukturierte Datentypen

Schlüsselbegriffe zu Datentypen

Kernideen

Weiterführende Literatur

Tabellarische Daten

Schlüsselbegriffe zu tabellarischen Daten

Data Frames und Tabellen

Nicht tabellarische Datenstrukturen

Kernideen

Weiterführende Literatur

Lagemaße

Schlüsselbegriffe zu Lagemaßen

Mittelwert

Median und andere robuste Lagemaße

Ausreißer

Beispiel: Lagemaße für Einwohnerzahlen und Mordraten

Kernideen

Weiterführende Literatur

Streuungsmaße

Schlüsselbegriffe zu Streuungsmaßen

Standardabweichung und ähnliche Maße

Die Anzahl der Freiheitsgrade und die Frage, ob n oder n – 1?

Streuungsmaße auf Basis von Perzentilen

Beispiel: Streuungsmaße für die Einwohnerzahlen der Bundesstaaten in den USA

Kernideen

Weiterführende Literatur

Exploration der Datenverteilung

Schlüsselbegriffe zur Exploration von Verteilungen

Perzentile und Box-Plots

Häufigkeitstabellen und Histogramme

Dichtediagramme und -schätzer

Kernideen

Weiterführende Literatur

Binäre und kategoriale Daten untersuchen

Schlüsselbegriffe zur Exploration kategorialer Daten

Modus

Erwartungswert

Wahrscheinlichkeiten

Kernideen

Weiterführende Literatur

Korrelation

Schlüsselbegriffe zur Korrelation

Streudiagramme

Kernideen

Weiterführende Literatur

Zwei oder mehr Variablen untersuchen

Schlüsselbegriffe zur Exploration von zwei oder mehr Variablen

Hexagonal-Binning- und Konturdiagramme (Diagramme für mehrere numerische Variablen)

Zwei kategoriale Variablen

Kategoriale und numerische Variablen

Mehrere Variablen visualisieren

Kernideen

Weiterführende Literatur

Zusammenfassung

KAPITEL 2. Daten- und Stichprobenverteilungen

Zufallsstichprobenziehung und Stichprobenverzerrung

Schlüsselbegriffe für Zufallsstichproben

Verzerrung

Zufallsauswahl

Größe versus Qualität: Wann spielt die Stichprobengröße eine Rolle?

Unterschied zwischen dem Stichproben- und dem Populationsmittelwert

Kernideen

Weiterführende Literatur

Auswahlverzerrung

Schlüsselbegriffe zur Auswahlverzerrung

Regression zur Mitte

Kernideen

Weiterführende Literatur

Stichprobenverteilung einer statistischen Größe

Schlüsselbegriffe zur Stichprobenverteilung

Zentraler Grenzwertsatz

Standardfehler

Kernideen

Weiterführende Literatur

Bootstrap-Verfahren

Schlüsselbegriffe zum Bootstrap-Verfahren

Unterschiede zwischen Resampling und dem Bootstrap-Verfahren

Kernideen

Weiterführende Literatur

Konfidenzintervalle

Schlüsselbegriffe zu Konfidenzintervallen

Kernideen

Weiterführende Literatur

Normalverteilung

Schlüsselbegriffe zur Normalverteilung

Standardnormalverteilung und Q-Q-Diagramme

Kernideen

Verteilungen mit langen Verteilungsenden

Schlüsselbegriffe für Verteilungen mit langen Verteilungsenden

Kernideen

Weiterführende Literatur

Studentsche t-Verteilung

Schlüsselbegriffe zur studentschen t-Verteilung

Kernideen

Weiterführende Literatur

Binomialverteilung

Schlüsselbegriffe zur Binomialverteilung

Kernideen

Weiterführende Literatur

Chi-Quadrat-Verteilung

Kernideen

Weiterführende Literatur

F-Verteilung

Kernideen

Weiterführende Literatur

Poisson- und verwandte Verteilungen

Schlüsselbegriffe zur Poisson- und verwandten Verteilungen

Poisson-Verteilung

Exponentialverteilung

Die Hazardrate schätzen

Weibull-Verteilung

Kernideen

Weiterführende Literatur

Zusammenfassung

KAPITEL 3. Statistische Versuche und Signifikanztests

A/B-Test

Schlüsselbegriffe zum A/B-Test

Warum eine Kontrollgruppe nutzen?

Warum lediglich A/B? Warum nicht auch C, D usw.?

Kernideen

Weiterführende Literatur

Hypothesentests

Schlüsselbegriffe für Hypothesentests

Den Zufall fehldeuten

Die Nullhypothese

Die Alternativhypothese

Einseitige und zweiseitige Hypothesentests

Kernideen

Weiterführende Literatur

Resampling

Schlüsselbegriffe zum Resampling

Permutationstest

Beispiel: Die Affinität von Nutzern zu einem Webinhalt messen (Web-Stickiness)

Exakte und Bootstrap-Permutationstests

Permutationstests: ein geeigneter Ausgangspunkt in der Data Science

Kernideen

Weiterführende Literatur

Statistische Signifikanz und p-Werte

Schlüsselbegriffe zu statistischer Signifikanz und p-Werten

p-Wert

Signifikanzniveau

Die Kontroverse um den p-Wert

Praktische Bedeutung

Fehler 1. und 2. Art

Data Science und p-Werte

Kernideen

Weiterführende Literatur

t-Tests

Schlüsselbegriffe zum t-Test

Kernideen

Weiterführende Literatur

Testen mehrerer Hypothesen

Schlüsselbegriffe zum mehrfachen Testen

Kernideen

Weiterführende Literatur

Die Anzahl der Freiheitsgrade

Schlüsselbegriffe zu Freiheitsgraden

Kernideen

Weiterführende Literatur

Varianzanalyse (ANOVA)

Schlüsselbegriffe zur Varianzanalyse

F-Statistik

Zweifaktorielle Varianzanalyse

Kernideen

Weiterführende Literatur

Chi-Quadrat-Test

Schlüsselbegriffe zum Chi-Quadrat-Test

Chi-Quadrat-Test: ein Resampling-Ansatz

Chi-Quadrat-Test: die statistische Theorie

Exakter Test nach Fisher

Wissenschaftlichen Betrug aufdecken

Relevanz in der Data Science

Kernideen

Weiterführende Literatur

Mehrarmige Banditen

Schlüsselbegriffe für mehrarmige Banditen

Kernideen

Weiterführende Literatur

Trennschärfe und Stichprobengröße

Schlüsselbegriffe zur Trennschärfe und zur Stichprobengröße

Stichprobengröße

Kernideen

Weiterführende Literatur

Zusammenfassung

KAPITEL 4. Regression und Vorhersage

Lineare Einfachregression

Schlüsselbegriffe zur linearen Einfachregression

Die Regressionsgleichung

Angepasste Werte und Residuen

Die Methode der kleinsten Quadrate

Unterschied zwischen Vorhersage- und erklärenden Modellen

Kernideen

Weiterführende Literatur

Multiple lineare Regression

Schlüsselbegriffe zur multiplen linearen Regression

Beispiel: Die King-County-Immobiliendaten

Das Modell bewerten

Kreuzvalidierung

Modellauswahl und schrittweise Regression

Gewichtete Regression

Kernideen

Weiterführende Literatur

Vorhersage mittels Regression

Schlüsselbegriffe zur Vorhersage mittels Regression

Risiken bei der Extrapolation

Konfidenz- und Prognoseintervalle

Kernideen

Regression mit Faktorvariablen

Schlüsselbegriffe zu Faktorvariablen

Darstellung durch Dummy-Variablen

Faktorvariablen mit vielen Stufen

Geordnete Faktorvariablen

Kernideen

Interpretieren der Regressionsgleichung

Schlüsselbegriffe zur Interpretation der Regressionsgleichung

Korrelierte Prädiktorvariablen

Multikollinearität

Konfundierende Variablen

Interaktions- und Haupteffekte

Kernideen

Regressionsdiagnostik

Schlüsselbegriffe zur Regressionsdiagnostik

Ausreißer

Einflussreiche Beobachtungen

Heteroskedastische, nicht normalverteilte und korrelierte Fehler

Partielle Residuendiagramme und Nichtlinearität

Kernideen

Polynomiale und Spline-Regression

Schlüsselbegriffe zur nicht linearen Regression

Polynome

Splines

Verallgemeinerte additive Modelle

Kernideen

Weiterführende Literatur

Zusammenfassung

KAPITEL 5. Klassifikation

Mehr als zwei Kategorien?

Naiver Bayes-Klassifikator

Schlüsselbegriffe zum naiven Bayes-Klassifikator

Warum eine exakte bayessche Klassifikation nicht praktikabel ist

Die naive Lösung

Numerische Prädiktorvariablen

Kernideen

Weiterführende Literatur

Diskriminanzanalyse

Schlüsselbegriffe zur Diskriminanzanalyse

Kovarianzmatrix

Lineare Diskriminanzanalyse nach Fisher

Ein einfaches Beispiel

Kernideen

Weiterführende Literatur

Logistische Regression

Schlüsselbegriffe zur logistischen Regression

Logistische Antwortfunktion und Logit-Funktion

Logistische Regression und verallgemeinerte lineare Modelle

Verallgemeinerte lineare Modelle

Vorhergesagte Werte aus der logistischen Regression

Interpretation der Koeffizienten und Odds-Ratios

Lineare und logistische Regression: Gemeinsamkeiten und Unterschiede

Modellanpassung

Maximum-Likelihood-Schätzung

Das Modell prüfen und bewerten

Analyse der Residuen

Kernideen

Weiterführende Literatur

Klassifikationsmodelle bewerten

Schlüsselbegriffe zur Evaluierung von Klassifikationsmodellen

Konfusionsmatrix

Die Problematik seltener Kategorien

Relevanz, Sensitivität und Spezifität

ROC-Kurve

Fläche unter der ROC-Kurve (AUC)

Lift

Kernideen

Weiterführende Literatur

Strategien bei unausgewogenen Daten

Schlüsselbegriffe zu unausgewogenen Daten

Undersampling

Oversampling und Up/Down Weighting

Generierung von Daten

Kostenbasierte Klassifikation

Die Vorhersagen untersuchen

Kernideen

Weiterführende Literatur

Zusammenfassung

KAPITEL 6. Statistisches maschinelles Lernen

K-Nächste-Nachbarn

Schlüsselbegriffe zur Methode der K-Nächsten-Nachbarn

Ein kleines Beispiel: Vorhersage von Kreditausfällen

Distanzmaße

1-aus-n-Codierung

Standardisierung (Normierung, z-Werte)

K festlegen

KNN zur Merkmalskonstruktion

Kernideen

Baummodelle

Schlüsselbegriffe zu Baummodellen

Ein einfaches Beispiel

Der Recursive-Partitioning-Algorithmus

Homogenität und Unreinheit messen

Den Baum daran hindern, weiterzuwachsen

Die Komplexität eines Baums in R kontrollieren

Die Komplexität eines Baums in Python kontrollieren

Vorhersage eines kontinuierlichen Werts

Wie Bäume verwendet werden

Kernideen

Weiterführende Literatur

Bagging und Random Forests

Schlüsselbegriffe zum Bagging und zu Random Forests

Bagging

Random Forest

Variablenwichtigkeit

Hyperparameter

Kernideen

Boosting

Schlüsselbegriffe zum Boosting

Der Boosting-Algorithmus

XGBoost

Regularisierung: Überanpassung vermeiden

Ridge und Lasso Regression

Hyperparameter und Kreuzvalidierung

Hyperparameter beim XGBoost-Algorithmus

Kernideen

Zusammenfassung

KAPITEL 7. Unüberwachtes Lernen

Hauptkomponentenanalyse

Schlüsselbegriffe zur Hauptkomponentenanalyse

Ein einfaches Beispiel

Die Hauptkomponenten berechnen

Die Hauptkomponenten interpretieren

Korrespondenzanalyse

Kernideen

Weiterführende Literatur

K-Means-Clustering

Schlüsselbegriffe zu K-Means-Clustering

Ein einfaches Beispiel

Der K-Means-Algorithmus

Die Cluster interpretieren

Die Anzahl von Clustern bestimmen

Kernideen

Hierarchische Clusteranalyse

Schlüsselbegriffe zur hierarchischen Clusteranalyse

Ein einfaches Beispiel

Das Dendrogramm

Der agglomerative Algorithmus

Ähnlichkeitsmaße

Kernideen

Modellbasierte Clusteranalyse

Multivariate Normalverteilung

Zusammengesetzte Normalverteilungen (gaußsche Mischverteilungen)

Die Anzahl der Cluster bestimmen

Kernideen

Weiterführende Literatur

Skalierung und kategoriale Variablen

Schlüsselbegriffe zur Skalierung von Daten

Variablen skalieren

Dominierende Variablen

Kategoriale Daten und die Gower-Distanz

Probleme bei der Clusteranalyse mit verschiedenen Datentypen

Kernideen

Zusammenfassung

Quellenangaben

Fußnoten. Kapitel 1: Explorative Datenanalyse

Kapitel 2: Daten- und Stichprobenverteilungen

Kapitel 3: Statistische Versuche und Signifikanztests

Kapitel 4: Regression und Vorhersage

Kapitel 5: Klassifikation

Kapitel 6: Statistisches maschinelles Lernen

Kapitel 7: Unüberwachtes Lernen

Index. A

B

C

D

E

F

G

H

I

K

L

M

N

O

P

Q

R

S

T

U

V

W

X

Z

Über die Autoren

Über den Übersetzer

Kolophon

Отрывок из книги

50+ essenzielle Konzepte mit R und Python

Peter Bruce, Andrew Bruce & Peter Gedeck

.....

Der Recursive-Partitioning-Algorithmus

Homogenität und Unreinheit messen

.....

Добавление нового отзыва

Комментарий Поле, отмеченное звёздочкой  — обязательно к заполнению

Отзывы и комментарии читателей

Нет рецензий. Будьте первым, кто напишет рецензию на книгу Praktische Statistik für Data Scientists
Подняться наверх