Читать книгу Deskriptive Statistik verstehen - Christian FG Schendera - Страница 5

Оглавление

Vorwort

„Wenn man mir die Freude am Fußball nimmt, hört der Spaß bei mir auf.“

Thomas Häßler

Was für ein Sommer!

Deutschland ist Fußballweltmeister, Miro Klose ist nun alleiniger Rekordtorschütze bei Fußballweltmeisterschaften, und Manuel Neuer erhielt den Goldenen Handschuh als bester Torhüter des Turniers. Deutschland überholte außerdem mit 223 Treffern bei Weltmeisterschaften den bisherigen Rekordhalter Brasilien, und führt wegen der Siege v.a. in der WM-Endrunde seitdem auch die Weltrangliste an.

Man darf mit einiger Berechtigung annehmen, dass Fußball, mindestens jedes Wochenende, umso mehr an internationalen Wettbewerben wie z.B. Champions League, Europa- oder Weltmeisterschaft, deutlich beliebter als Mathematik und Statistik sein könnte. Was liegt da näher, als die Faszination am Fußball auch ein wenig auf die deskriptive Statistik scheinen zu lassen? Umso mehr, da das DFB-Team während der WM Big-Data-Analysen einsetzte, die eben auch auf deskriptiver Statistik basiert (vgl. SAP News, 2014; Stier, 2014). Die deskriptive Statistik ist ebenfalls ein Teamsport: Sie funktioniert nach Regeln, nach Erfolgen (Titeln, Renommee, Punkten oder Toren), erfordert Koordination und Zusammenspiel, die Leistungen Einzelner tragen zum Ganzen bei, und sie kann auch eine breite Öffentlichkeit haben, z.B. in der Gestalt eines anspruchsvollen Publikums oder des Teams selbst. Also, los geht’s…

Dieses Schema gibt den Aufbau des Buches wieder:

	Inhalt	Ziel
1	Deskriptive	■ Überblick
	Statistik	■ Disziplin
2	„Heimspiel“	■ Beispiel: Bundesligatabelle
	Grundlagen	■ Zahlen, Ziffern und Werte
	innerhalb einer	■ Messniveaus
	Datentabelle	■ Konsequenzen des Messniveaus
3	„Vor dem Anpfiff“	■ Datenerhebung
	Vor dem	■ Verborgene Strukturen
	Beschreiben	■ Datenqualität
	außerhalb einer	■ Strukturierung und Verarbeitung
	Datentabelle	■ Werte und Missings
4	„Das Herz“	■ Mengen / Anteile
	Maßzahlen	■ Lage-, Streu-, Formmaße
		■ Grenzen und Bereiche
		■ ROC
		■ Zeit
		■ Prozesse
5	„Für das Auge“ Tabellen und Grafiken	■ Tabellenkonstruktion: 0 ×– bis höher klassierte Tabellen■ Grafiken: je nach Daten, Zweck (Aussage) und Skalenniveau
6	„Dream-Teatm“	■ Vollständigkeit
	Datenqualität	■ Einheitlichkeit
		■ Doppelte
		■ Fehlende Werte
		■ Ausreißer
		■ Plausibilität
7	„Jonglieren“	■ Gewichte
		■ Zahlen als Text
8	„Werkzeuge“ Einführungen	■ SAS Enterprise Guide (kurz: EG)
		■ IBM SPSS Statistics (kurz: SPSS)
9	Literatur

Kapitel 1 geht in Abschnitt 1.1 zunächst der Frage nach: Was ist deskriptive Statistik? Deskriptive Statistik ist ein Teilbereich der Statistik und darin die regelgeleitete Anwendung eines Methodenkanons auf u.a. numerische oder Textdaten. Das Beherrschen der deskriptiven Statistik ist auch Kompetenz. Anschließend geht Abschnitt 1.2 darauf ein, was deskriptive Statistik nicht ist: Deskriptive Statistik ist keine explorative Analyse, konfirmatorische Analyse oder Inferenzstatistik. Deskriptive Statistik kommt auch nicht ohne Qualität und Hintergrundinformation über die Daten aus. Auch ist sie keine Projektionsfläche willkürlicher Auslegungen oder Spielball hemmungslosen Verallgemeinerns.

Kapitel 2 stellt die Grundlagen der deskriptiven Statistik als ein „Heimspiel“ vor. Mit einem Heimspiel ist gemeint: Man spielt mit dem eigenen Team im eigenen Stadion vor eigenem Publikum. Man kennt sich bestens aus. Die Grundlagen der deskriptiven Statistik sind bekannt, man ist bestens vorbereitet. Abschnitt 2.1 beginnt daher mit einer der am häufigsten betrachteten Tabellen in Deutschland, nämlich einer Bundesligatabelle. Das Ziel ist, anhand dieser Tabelle die wichtigsten Grundbegriffe der deskriptiven Statistik zu erläutern. Fußball erklärt also die deskriptive Statistik. Abschnitt 2.2 beginnt mit der Erläuterung des Inhalts von Datentabellen und geht auf Begriffe wie z.B. Zahlen, Ziffern und Werte anhand von Beispielen aus dem Fußball ein. Abschnitt 2.3 geht anschließend mit der Frage: „Was hat Messen mit meinen Daten zu tun?“ auf das sog. Messniveau einer Variablen über. Anhand der Bundesligatabelle werden Messniveaus und ihre grundlegende Bedeutung für jede (nicht nur deskriptive) Statistik erläutert. Abschnitt 2.4 hebt die Konsequenzen des Messniveaus für die praktische Arbeit mit Daten hervor. Begriffe wie z.B. Genauigkeit, Reliabilität und Validität sowie Objektivität werden z.B. mittels Torjägern veranschaulicht. Heimspiel bedeutet auch, dass man es durch eine gute Vorbereitung selbst in der Hand hat, auch ein anspruchsvolles Auswärtsspiel in die Kontrollierbarkeit und Niveau eines Heimspiels zu wandeln. Der Fokus von Kapitel 2 ist daten-nahe, und beschränkt sich daher auf Information in einer Datentabelle. Kapitel 3 beschreibt dagegen den Kontext von Daten, also Information, die man nicht notwendigerweise durch das Analysieren einer Datentabelle erfährt.

Kapitel 3 stellt grundlegende Fragen zusammen, die vor der Durchführung einer deskriptiven Statistik geklärt sein sollten. Den Anfang macht Abschnitt 3.1, der fragt: Wie wurden die Daten erhoben? und stellt damit z.B. Fragen nach dem Messvorgang. Abschnitt 3.2 stellt Fragen nach verborgenen Strukturen, wie z.B. Ziehung und Auswahlwahrscheinlichkeit. Anhand von Entdeckungsreisenden in Sachen Fußball wird erläutert, was eine naive von einer systematischen Ziehung und Gewichtung von Daten unterscheidet. Aber selbst wenn diese Frage zufriedenstellend geklärt ist, ist damit noch nicht selbstverständlich, dass eine deskriptive Statistik erstellt werden kann. Abschnitt 3.3 fragt nach der Fitness der Daten (Darf eine deskriptive Statistik überhaupt erstellt werden?) und stellt mehrere mögliche Spielverderber vor. Abschnitt 3.4 ist eine Art Exkurs („Auszeit“) und stellt Strukturen von Datentabellen vor, welche technische Eigenschaften (Attribute) sie haben und wie sie u.a. von Software verarbeitet werden. Abschnitt 3.5 widmet sich abschließend der womöglich spannendsten Frage: Was kann ich an meinen Daten beschreiben? Die Antwort darauf muss lauten: „Es kommt darauf an…“

Kapitel 4 beschreibt (endlich!) die Reise ins Herz der deskriptiven Statistik. Abschnitt 4.1 erläutert Maße für das Beschreiben von Mengen und Anteilen: Summe (∑), Anzahl (N, n) und Häufigkeit (h, f, H, F). Abschnitt 4.2 erläutert die gebräuchlichsten Maße für das Beschreiben des Zentrums einer Verteilung (Lagemaße): Modus (D), Median (Z), Mittelwert (x). Zur Illustration des Effekts von Missings sind die Beispiele für Lagemaße ohne und mit Missings berechnet. Abschnitt 4.3 erläutert die gebräuchlichsten Maße für das Beschreiben der Abweichung vom Zentrum einer Verteilung (Streuungsmaße): Spannweite R, Interquartilsabstand, Varianz, Standardabweichung, und Variationskoeffizient. Auch die Beispiele für Streuungsmaße sind ohne und mit Missings berechnet. Abschnitt 4.4 erläutert die gebräuchlichsten Maße für das Beschreiben der Abweichung von der Form einer Normalverteilung (Formmaße): Schiefe und Exzess. Abschnitt 4.5 erläutert das Beschreiben von Grenzen und Bereichen anhand von Quantilen (u.a. Median, Quartile, Dezentile) als eine Art Kombination aus Lage- und Streumaß. Ab schnitt 4.6 erläutert das Beschreiben von Treffern, z.B. bei Wetten mit zwei Ausgängen („hopp oder topp“). Für einen „Wettkönig“ werden für Wetten mit vier Ausgängen Sensitivität, Spezifität, ROC/AUC sowie Gewinn-Verlust-Matrix ermittelt. Abschnitt 4.7 stellt drei Möglichkeiten für das Beschreiben von Zeit vor: das geometrische Mittel (4.7.1), die Regressionsanalyse (4.7.2) sowie die Methode der exponentiellen Glättung als Trend bzw. Prognose (4.7.3). Bevor es an die praktische deskriptive Statistik geht, veranschaulicht Abschnitt 4.8, dass wer sich in der deskriptiven Statistik auskennt, auch andere als die „üblichen“ Visualisierungen „lesen“ kann. Deskriptive Statistik eben als Kompetenz. Abschnitt 4.8 stellt das Beschreiben von Prozessen vor, z.B. Funnel Charts (Trichterdiagramme usw.) für z.B. Pipelines. Abschnitt 4.9 verschafft einen schnellen Überblick, wo die meisten dieser Maße im SAS Enterprise Guide (4.9.1) und in IBM SPSS Statistics zu finden sind (4.9.2).

Kapitel 5 beschreibt die Grundlagen der Struktur und Interpretation von Tabellen und Grafiken zur Visualisierung von Daten. Abschnitt 5.1 beginnt beim Grundsätzlichen und erläutert die Konstruktion von 0- bis n×klassierten Tabellen; darunter Ausrichtung, Verschachtelung, die Vor- und Nachteile von Tabellen und wie mit SAS und SPSS 0- bis n×klassierte Tabellen erzeugt werden können. Abschließend wird eine einfache 0×(gesprochen: „nullfach“) klassierte Tabelle vorgestellt. Eine solche Tabelle ist nicht nach einer Klassifikationsvariablen strukturiert. Abschnitt 5.2 beginnt mit den Grundlagen einer 1×klassierten Tabelle und geht dann zu spezielleren Themen über. Anhand einer Klassifikationsvariablen auf Nominalniveau werden die Grundlagen 1×klassierter Tabellen erläutert (5.2.1); an einer Klassifikationsvariablen auf Ordinalniveau werden Besonderheiten wie z.B. Ranginformation (5.2.2) oder Missings (5.2.3) vertieft. Unterabschnitt 5.2.4 erläutert eine 1×klassierte Tabelle für Variablen auf Intervallniveau, z.B. eine Mittelwerttabelle. Abschnitt 5.3 geht auf 2×klassierte Tabellen über, darin definieren Zwei Kategorialvariablen eine Tabelle. Trotz komplexerer Tabellenstrukturen kommen mathematisch gesehen dieselben Rechenoperationen zum Einsatz. 5.3.1 beschreibt detailliert die Anforderung und Interpretation einer Kreuztabelle, u.a. Zellhäufigkeit und -prozente sowie Spalten- und Zeilenhäufigkeit und -prozente. Unterabschnitt 5.3.2 erläutert eine Tabelle, die wie eine Kreuztabelle strukturiert ist, jedoch die Werte einer dritten Variablen auf Intervallskalenniveau als Mittelwerte wiedergibt. Abschnitt 5.4 behandelt die Kommunikation von Werten und Daten mittels Diagrammen. Die Unterabschnitte sind anwendungsorientiert auf bestimmte Aussagen ausgerichtet: Wiedergabe von Datenpunkten (einzelne Werten einer Variablen, z.B. univariates Dot-Plot; vgl. 5.4.2), Wiedergabe von zusammengefassten Werten einer Variablen (vgl. 5.4.3, z.B. Balkendiagramm; ggf. gruppiert nach einer zweiten Variablen), Wiedergabe von bivariaten Messwertpaaren (z.B. eines Streudiagramms; vgl. 5.4.4) sowie Aggregierung und Gruppierung zweier Variablen und andere Fälle (z.B. Butterfly-Plot, vgl. 5.4.5). Allem voran geht ein Crashkurs (Übersicht) mit Tipps (Dos), was man tun sollte und was besser nicht (Don’ts; vgl. 5.4.1).

Kapitel 6 vertieft das Thema der Datenqualität. Letztlich sind Datenqualität und deskriptive Statistik ein Dream-Team. Nur mit geprüfter Datenqualität macht eine deskriptive Statistik Sinn. Für jeden „Spielverderber“ werden Sie seine besondere Bedeutung (um nicht zu sagen: Gefahr) und meist mehrere unkomplizierte Maßnahmen zur Prüfung kennenlernen. Der Umgang mit einem gefundenen Fehler hängt dabei von Art und Ursache des Fehlers ab. Die Systematik des Vorgehens orientiert sich an Schendera (2007). Abschnitt 6.1 beginnt, wenig überraschend, mit der Vollständigkeit. Abschnitt 6.2 geht zur Einheitlichkeit über. Abschnitt 6.3 behandelt doppelte (Doubletten) und Abschnitt 6.4 fehlende Werte (Missings). Abschnitt 6.5 stellt das Überprüfen auf Ausreißer vor; genau betrachtet wird bei Ausreißern auch die Gültigkeit eines Erwartungshorizonts geprüft. All dieses Prüfen von Datenqualität strebt (zunächst) das Ziel der Plausibilität an. Abschnitt 6.6 schließt mit Maßnahmen zur Prüfung der Plausibilität (Daten sollten unbedingt auf Plausibilität geprüft werden!). Abschnitt 6.7 schließt mit konkreten Trainingseinheiten zur Prüfung von Datenqualität.

Kapitel 7 schließt die Einführung in die deskriptive Statistik mit zwei spezielleren Anwendungen des Umgangs mit deskriptiven Statistiken: dem praktischen Umgang mit Gewichten (vgl. 7.1) und dem Umgang mit Zahlen beim Abfassen von Texten (vgl. 7.2). Abschnitt 7.1 führt in das Erstellen einer deskriptiven Statistik unter Einbeziehung von Gewichten ein. Gewichte haben einen großen Einfluss bei der Ermittlung deskriptiver Statistiken. Unterabschnitt 7.1.1 wird zuerst den Effekt von Gewichten an Beispielen aus dem Fußball, der Politik, und der Wirtschaft veranschaulichen. Gewichtete Ergebnisse sind nur mit Kenntnis der dahinterstehenden Annahmen und Interessen nachvollziehbar. Unterabschnitt 7.1.2 wird den Effekt von Gewichten an zahlreichen Streu- und Lagemaßen veranschaulichen. Unterabschnitt 7.1.3 wird als „Hintergrundbericht“ die Frage klären: Was sind eigentlich Gewichte? Dabei wird auf die Funktion und Varianten von Gewichten eingegangen, von selbstgewichteten Daten über Designgewichte (disproportionale Ansätze) bis hin zur Poststratifizierung. Abschnitt 7.2 führt in das Verfassen einer deskriptiven Statistik als Text ein, und stellt u.a. Empfehlungen zusammen, wann eine Zahl als Ziffer („Zahl“) und wann als Zahlwort („Text“) geschrieben werden sollte. Unterabschnitt 7.2.1 stellt den Umgang mit allgemein gebräuchlichen Zahlen vor. Unterabschnitt 7.2.2 behandelt den Umgang mit präzisen Maßen bzw. Messungen. Unterabschnitt 7.2.3 schließt mit Symbolen und Statistiken.

Kapitel 8 bietet zwei Kurzeinführungen in zwei der bekanntesten Werkzeuge für das Erstellen einer deskriptiven Statistik, den Enterprise Guide von SAS und SPSS Statistics von IBM. Die Berechnungen und Visualisierungen erfolgten mit dem Enterprise Guide 6.1, SAS v9.4, sowie SPSS v22. Die Zitate am Anfang eines jeden Kapitels sind überwiegend Michael Schaffraths (2013²) „Fußball ist Fußball“ entnommen.

Zu Dank verpflichtet bin ich für Freundschaft, fachlichen Rat und/oder auch einen Beitrag in Form von Syntax, Daten und/oder auch Dokumentation unter anderem: Prof. William Greene (NYU Stern), Prof. em. Gerd Antos (Martin-Luther-Universität Halle-Wittenberg), Prof. Mark Galliker (Universität Bern, Schweiz), Roland Donalies (SAS Heidelberg), Ralph Wenzl (Zürich). Bei Sigur Ros, Jónsi und Alex sowie auch bei Walter Moers (Zamonien) bedanke ich mich für die langjährige künstlerische Inspiration. Meiner Frau Yun danke ich für ihre Geduld, Weitsicht und für ihr Verständnis.

Mein Dank gilt Patric Märki und Markus Grau von SAS Switzerland (Wallisellen) für die großzügige Bereitstellung von SAS Software und technischer Dokumentation. Herrn Rainer Berger vom UVK Verlag danke ich für das Vertrauen, dieses Buch zu veröffentlichen, sowie die immer großzügige Unterstützung. Stephan Lindow (Hamburg) entwarf diverse Grafiken. Falls in diesem Buch noch irgend etwas unklar oder fehlerhaft sein sollte, so liegt die Verantwortung alleine beim Autor.

An dieser Stelle möchte ich mich auch für die positiven Rückmeldungen und Vorschläge zu meinen weiteren Veröffentlichungen bedanken, u.a. zu SQL (2012, 2011), zur Clusteranalyse (2010), Regressionsanalyse (2014²), zur Datenqualität (2007), zu Syntaxprogrammierung mit SPSS (2005) sowie einführend in die Datenanalyse und Datenmanagement mit dem SAS System (2004). Die wichtigsten Rückmeldungen, Programme und Beispieldaten stehen auf der Webseite des Autors www.method-consult.ch zum kostenlosen Download bereit.

Hergiswil/Haikou, Februar 2015

Dr. CFG Schendera

Подняться наверх