Читать книгу Deskriptive Statistik verstehen - Christian FG Schendera - Страница 8
Оглавление2 Ein Heimspiel: Grundlagen der deskriptiven Statistik
„Fußball ist einfach, deshalb ist es ja so kompliziert.“
Berti Vogts
„Der Fußball ist einer der am weitesten verbreiteten religiösen Aberglauben unserer Zeit. Er ist heute das wirkliche Opium des Volkes.“
Umberto Eco
„The best thing about being a statistician is that you get to play in everyone else’s backyard.“
John Tukey, Bell Labs, Princeton University
Mit einem Heimspiel ist gemeint: Man spielt mit dem eigenen Team im eigenen Stadion vor eigenem Publikum. Man kennt sich bestens aus. Die Grundlagen der deskriptiven Statistik sind bekannt, man ist bestens vorbereitet. Heimspiel bedeutet also auch: Durch eine gute Vorbereitung hat man es selbst in der Hand, auch ein anspruchsvolles Auswärtsspiel in die Kontrollierbarkeit und Niveau eines Heimspiels zu wandeln.
Der Fokus von Kapitel 2 beschränkt sich daher auf Informationen in einer Datentabelle. Informationen, die man nicht notwendigerweise durch das Analysieren einer Datentabelle erfährt, also den Kontext von Daten, beschreibt dagegen Kapitel 3. Abschnitt 2.1 beginnt daher mit einer der an Wochenenden wohl am häufigsten gesehenen Tabellen im deutschen Fernsehen, nämlich einer Bundesligatabelle. Das Ziel ist, anhand dieser Tabelle die wichtigsten Grundbegriffe der deskriptiven Statistik zu erläutern. Fußball erklärt also die deskriptive Statistik. Abschnitt 2.2 beginnt mit dem Erläutern des Inhalts von Datentabellen und erläutert Begriffe wie z.B. Zahlen, Ziffern und Werte an Beispielen aus dem Fußball. Anschließend geht Abschnitt 2.3 mit der Frage: „Was hat Messen mit meinen Daten zu tun?“ auf das sog. Messniveau einer Variablen ein. Anhand der Bundesligatabelle werden Messniveaus und ihre grundlegende Bedeutung für jede (nicht nur deskriptive) Statistik erläutert. Abschnitt 2.4 hebt die Konsequenzen des Messniveaus für die praktische Arbeit mit Daten hervor. Begriffe wie z.B. Genauigkeit, Reliabilität und Validität sowie Objektivität werden z.B. mittels Torjägern veranschaulicht.
2.1 Fußball erklärt die deskriptive Statistik. Oder umgekehrt …?
„Fussball ist ding, dang, dong. Es gibt nicht nur ding.“
Giovanni Trappatoni
Man darf wahrscheinlich mit einiger Berechtigung annehmen, dass Fußball, zumindest jedes Wochenende, deutlich beliebter als Mathematik und Statistik sein könnte. Was liegt da näher, als die Faszination am Fußball auch ein wenig auf die deskriptive Statistik scheinen zu lassen? Im Folgenden wird die Abschlusstabelle der Bundesligasaison 2011/2012 wiedergegeben. Die Tabelle enthält die Spalten „Platz“, „Verein“, „Spiele“, „S“, „U“, und „N“ (jeweils für Sieg, Unentschieden oder Niederlage), „Tore“ sowie „Diff“ und „Pkt“.
Abb. 2: Abschlusstabelle der Bundesligasaison 2011/2012
Das Ziel ist, anhand dieser Tabelle die wichtigsten Grundbegriffe der deskriptiven Statistik zu erläutern. Mit bestimmten Rängen gehen besondere Regelungen für sportliche Erfolge bzw. Misserfolge ein: Die ersten drei Mannschaften qualifizieren sich direkt für die Champions League. Die Mannschaft auf Platz 4 nimmt an der Champions-League-Qualifikation teil. Die Mannschaften auf Platz 5 bis 7 qualifizieren sich für die Europa League. Die Mannschaft auf Platz 16 kommt in die Relegation zur 2. Liga. Die beiden letzten Mannschaften steigen in die 2. Liga ab.
2.2 Zahlen, Ziffern und Werte: Grundbegriffe
„Ich bin jetzt seit 34 Jahren Trainer, da habe ich gelernt, dass zwei und zwei niemals vier ist.“
Leon Beenhakker
Der Inhalt von Datentabellen besteht überwiegend aus Zahlen, Ziffern und Werten.
Zahlen
Die Menge der Zahlen wird, vereinfacht ausgedrückt, in Ganzzahlen und Bruchzahlen unterteilt. Ganz- und Bruchzahlen können jeweils als Quotienten Q = p / q (wobei p und q Ganzzahlen, und q ≠ 0) ausgedrückt werden. Der Unterschied zwischen Ganzzahlen und Bruchzahlen wird i. Allg. anhand zweier Aspekte beschreiben:
■ Der Quotient Q von Ganzzahlen besitzt keinen Rest, hat also keine Nachkommastellen. Der Quotient Q von Bruchzahlen hat dagegen einen Rest.
■ Von Bruchzahlen wird gesagt, dass sie nicht in der Natur vorkommen. Ganzzahlen werden daher auch als „natürliche“ Zahlen bezeichnet.
Ganzzahl
Die ganzen Zahlen (Quotienten ohne Nachkommastellen) umfassen alle Zahlen: …, -3, -2, -1, 0, 1, 2, 3, … Alternative Bezeichnungen für Ganzzahl sind „Natürliche Zahl“, „Zählzahl“ oder „Integer“.
Menge | Bezeichnung |
…, -3, -2, -1, 0, 1, 2, 3, … | Ganzzahlen |
1, 2, 3, … | Positive Ganzzahlen |
…, -3, -2, -1 | Negative Ganzzahlen |
0, 1, 2, 3, … | Nonnegative Ganzzahlen |
…, -3, -2, -1, 0 | Nonpositive Ganzzahlen |
Ganze Zahlen sind eindeutig geordnet. Ganze Zahlen können dadurch eindeutig untereinander verglichen werden. Der Wert 0 weist dabei mehrere Besonderheiten auf. 0 ist die einzige Ganzzahl, die weder positiv noch negativ ist. Gemäß dieser Auffassung ist 0 ein Element der Ganzzahlen; Einigkeit besteht in diesem Punkt in der Mathematik jedoch nicht. Als Zählwert bedeutet 0, dass keine Elemente (z.B. innerhalb einer Menge) vorhanden sind. Eine Zahl, die daher ungleich 0 ist, wird daher auch als non-null bezeichnet. Ein 0 kann zugleich nonpositiv wie auch nonnegativ sein (s.u.).
Die oben wiedergegebene Abschlusstabelle der Bundesligasaison 2011/2012 enthält ausschließlich Ganzzahlen als Daten. Die obigen Ausführungen sollten ausreichen, den Typ der dargestellten Ganzzahlen interpretieren zu können. Die Spalte „Platz“ ist z.B. eine positive Ganzzahl; es gibt theoretisch keinen Platz 0 (einen negativen Wert gibt es in dieser Spalte ebenfalls nicht). Vergleichbar sieht es bei der Spalte „Spiele“ aus; am letzten Spieltag scheint „Spiele“ eine positive Ganzzahl zu sein. Betrachtet man jedoch den ersten Spieltag, ändert sich die Sichtweise: Werden Spiele, wie in der Bundesliga meist üblich, auf Freitag, Samstag und Sonntag verteilt, so steht bei manchen Mannschaften bis zum letzten Spiel unter „Spiele“ der Wert 0. Die Spalte „Spiele“ ist z.B. eine nonnegative Ganzzahl; es gibt theoretisch einen Platz 0 (einen negativen Wert gibt es in dieser Spalte nicht). Dasselbe gilt für die Spalten „S“, „U“, und „N“ (jeweils für Sieg, Unentschieden oder Niederlage): Mannschaften können (zumindest für eine Weile) keine Siege, Unentschieden oder auch Niederlagen erleben. Die Spalte „Tore“ enthält, von einem Doppelpunkt getrennt, die Anzahl der geschossenen bzw. kassierten Tore. Wir überspringen der Einfachheit halber diese Spalte und schauen uns die abgeleitete Spalte „Diff“ an, die Differenz aus den geschossenen bzw. kassierten Toren. Die Abschlusstabelle der Bundesligasaison 2011/2012 zeigt in der Spalte „Diff“ positive wie auch negative Werte. Theoretisch ist damit auch eine Differenz von 0 möglich; „Diff“ enthält daher Daten vom Typ Ganzzahlen. Die verbleibende Spalte „Pkt“ ist vom Typ her eine nonnegative Ganzzahl; es kann theoretisch Mannschaften geben, die eine Zeitlang nur verlieren und keine Punkte mitnehmen. An dieser Stelle klammern wir der Einfachheit halber Spezialregelungen aus, wie z.B. Punktabzüge. Unser Ziel ist das Erklären der Grundlagen der deskriptiven Statistik (und weniger des professionellen Fußballs als Wissenschaft, vgl. z.B. Jütting, 2004). Je nach Umständen können Punktabzüge als drastische Sanktionsmaßnahme durchaus zu negativen Punkteständen führen.
Bruchzahl
Eine Bruchzahl ist eine Zahl, deren Quotient Q = p / q einen Rest ungleich 0 aufweist. Ein Bruch ist genau dann gleich Null, wenn p = 0 und q ≠ 0. Solange die Länge der Nachkommastellen nicht unendlich oder nichtperiodisch ist, werden diese Bruchzahlen zu den rationalen Zahlen gezählt. Besitzt der Quotient Q = p / q einen Rest mit unendlichen (z.B. bei der Eulerschen Zahl, e oder Pi, µ) oder periodischen (z.B. 2/3 = 0,67) Nachkommastellen, so wird diese Bruchzahl zu den sog. irrationalen Zahlen gezählt. Ein Bruch wird in der sog. Inline-Schreibweise z.B. als Q = p / q, klassisch dagegen als
geschrieben. p ist dabei der Zähler, q der Nenner.
Die Tabelle zur Bundesligasaison 2011/2012 enthält ausschließlich Ganzzahlen. Bruchzahlen im Zusammenhang mit Bundesligaspielen findet man häufig im Zusammenhang mit Performanzstatistiken, z.B. zur Torgefährlichkeit, Passgenauigkeit, Zweikampfstärke usw. Aus der Bundesligatabelle lassen sich allerdings unkompliziert beispielhafte Bruchzahlen herleiten. Werden z.B. für Borussia Dortmund die durchschnittliche Anzahl der geschossenen Tore pro Spiel ermittelt, so ergibt sich über
■ Q = 80 / 34 als Bruchzahl
■ der Wert 2,353 (gekürzt),
■ 2,35294117647059 (weniger gekürzt) bzw.
■ 2,352941176470588235294117647059 (noch weniger gekürzt).
Solche scheinbaren „Präzisions exzesse“ können im Analysealltag durchaus ein Thema sein. Daher gleich ein paar Hinweise dazu:
Bei Brüchen werden die Konzepte von Genauigkeit und Präzision relevant. Die Genauigkeit (accuracy) einer Zahl ist durch die Anzahl von signifikanten Ziffern rechts von der Dezimalinterpunktion definiert. Die Präzision (precision) einer Zahl ist durch die Anzahl von signifikanten Ziffern insgesamt definiert. Bei der Addition bzw. Subtraktion wird die Anzahl der signifikanten Ziffern im Ergebnis durch den Wert mit der kleinsten Anzahl an signifikanten Ziffern bestimmt.
Beispiele
Die Summe aus 1,2 + 1,24 + 1,248 ergibt theoretisch im Ergebnis den Wert 3,688. Dieser Wert ist jedoch scheinbar auf vier Stellen genau. Aufgrund der kleinsten Anzahl an signifikanten Ziffern beschränkt der Wert 1,2 die Anzahl von signifikanten Ziffern im Ergebnis auf eine Stelle nach dem Komma. Die Summe 1,2 + 1,24 + 1,248 sollte daher nur auf eine Stelle nach dem Komma gerundet als 3,7 ausgedrückt werden. Bei der Multiplikation und Division gilt Ähnliches. Die Genauigkeit des Produkts aus zwei oder mehr Zahlen hängt von der Anzahl signifikanter Ziffern rechts von der Dezimalinterpunktion im kleinsten Wert ab. Das Produkt aus 1,2 x 1,24 sollte daher auf eine Stelle nach dem Komma gerundet als 1,5 und nicht als 1, 488 angegeben werden.
Zu den Ziffern nach dem Interpunktionszeichen bei numerischen Werten sollte vielleicht noch ergänzend gesagt werden, dass mittels sog. Formate eingestellt werden kann, mit wie vielen Nachkommastellen die Zahlen angezeigt werden sollen. Standardmäßig werden Zahlen von -9999,99 bis 99999,99 dargestellt. Die Einstellung der Anzahl von Dezimalzellen bezieht sich dabei nur auf die Anzeige. Numerische Werte werden von der Software so präzise wie möglich, mit derzeit bis zu 32 Nachkommastellen, gespeichert.
Ziffern
Im letzten Abschnitt zu Bruchzahlen war von Ziffern die Rede. Was sind Ziffern? Ziffern stellen Zahlen dar. Die Dezimalziffern 1, 4 und 8 stellen z.B. zusammen die Zahl 1,488 aus dem vorangehenden Abschnitt dar. Die Ziffern 1, 4 und 8 wurden deshalb präzisierend als Dezimalziffern bezeichnet, weil sie und die im Beispiel beschriebene Zahl aus dem Dezimalsystem (Zehnersystem) stammen. Dieses Zahlensystem heißt Dezimalsystem, weil es zehn Ziffern (0 bis 9) umfasst bzw. die Zahl 10 zur Basis hat. Dieselbe Zahl kann, weil es neben dem Dezimalsystem weitere Zahlensysteme gibt, durchaus durch verschiedene Ziffern dargestellt werden. Die Bundesligatabelle ist, mit Ausnahme des Alphabets (für die Vereinsnamen), ausschließlich im Dezimalsystem. Wir werden daher auf andere Beispiele ausweichen müssen. Die folgende Tabelle stellt bspw. die Ziffernfolgen „1000“ und „10“ in ausgewählten Zahlensystemen dar (Dezimal, Hexadezimal, Dual-Binär, Wissenschaftliche Notation, Römisch). Darüber hinaus gibt es diverse weitere Zahlensysteme, z.B. Oktal.
Beispiel
Darstellung der Ziffernfolge „1000“ und „10“ in verschiedenen Zahlensystemen:
Zahlensystem | „1000“ | „10“ |
Dezimal | 1000 | 10 |
Hexadezimal (ASCII) | 3E8 | A |
Dual-Binär | 1111101000 | 1010 |
Wissenschaftliche Notation | 1,00E+03 | 1,00E+01 |
Römisch | M | X |
Umgekehrt stellen dieselben Ziffernfolgen in verschiedenen Zahlensystemen meist verschiedene Zahlen dar. „1000“ im dual-binären System bedeutet z.B. 8 im Dezimalsystem. Im Zweifel lohnt es sich nachzufragen, in welchem Zahlensystem die Daten abgelegt sind. Dass Daten ausschließlich im Dezimalsystem abgelegt sind, ist nicht selbstverständlich, z.B. in der Informatik. (Lateinische) Buchstaben können demnach durchaus auch für Zahlen im Dezimalsystem stehen.
Was sind nun Buchstaben? Mehrere Buchstaben (oder auch nur einer) stellen Texte (allgemeiner: Zeichen, Codes) dar, um Bedeutungen bzw. Information zu vermitteln. Die Gesamtheit aller Buchstaben bildet wiederum ein Alphabet einer Sprache; eine Menge an Buchstaben bildet (in zunehmender Länge geordnet) Zeichen, Zeichenketten oder auch Texte. Mehrere Zeichen können Zeichenketten bilden, mehrere Zeichenketten wiederum Texte. Der Einfachheit halber wird in diesem Buch der Begriff „String“ für einzelne oder mehrere Zeichen, also für Zeichen oder Zeichenketten verwendet. Wie an den Zeichen im Hexadezimalsystem zu erkennen, können Strings ausschließlich aus Buchstaben bestehen, z.B. der Code „A“ für 10 oder auch aus Buchstaben mit Ziffern gemischten Zeichenfolgen bestehen, z.B. „3E8“ für 1000. Strings können i. Allg. annähernd beliebige Zeichen (einschließlich Zahlen) enthalten. Groß- und Kleinbuchstaben („X“ vs. „x“) werden dabei als verschiedene Buchstaben interpretiert, was bei bestimmten Operationen, z.B. dem Sortieren, dazu führen kann, dass Groß- und Kleinbuchstaben unterschiedlich verarbeitet werden. Beim Sortieren können (z.B. je nach Sortierschlüssel) kleingeschriebene Strings (z.B. „string“) je nach Software vor oder auch hinter großgeschriebene Strings (z.B. „STRING“) sortiert werden. Strings werden je nach Software als eigener Datentyp interpretiert und auch als alphanumerisch, „Character“ oder „Text“ bezeichnet.
Werte
Werte unterscheiden sich von Zahlen dadurch, dass bei ihnen ein Referenzsystem hinzukommt, in anderen Worten: ein Messvorgang und eine Maßeinheit. Zahlen können für sich alleine stehen, z.B. bei rein mathematischen Operationen. Bei reinen Additionen, wie z.B. 1 + 1 = 2, kann ohne Weiteres auf eine Maßeinheit verzichtet werden. Werte sind dagegen das Ergebnis einer in Zahlen („quantitativ“) gemessenen bzw. zugeschriebenen Eigenschaft einer definierten Entität. Nicht Zahlen, sondern erst Werte erlauben Zustände, Unterschiede oder auch Veränderungen innerhalb eines Referenzsystems zu beschreiben. Erst die Beziehung Referenzsystem-Messung-Messwert ermöglicht es, Zahlen nicht nur auszuwerten, sondern als (Mess-)Werte auch zu verstehen. Eine der ersten Fragen, die sich ein Data Analyst bei der Beschreibung von Daten stellen sollte, ist: In welcher Einheit sind diese Zahlen und wie sind sie zu interpretieren? Die Einheiten und Hinweise zur korrekten Interpretation sollten in Metadaten, Projektdokumentation oder zumindest in Spaltenüberschriften von Datentabellen hinterlegt sein. Man stelle sich z.B. die Bundesligatabelle ohne Überschriften vor. Data Analysten, die keine Erfahrung mit Fußballkenn werten haben, werden vermutlich erst einmal fluchen: Sie verlieren Zeit, da sie sich auf die Suche nach einer Dokumentation, anstelle der eigentliche Analyse der Daten machen müssen. Etwas extremer wäre es übrigens bei Tabellen der englischen Premier League, hier sind diese Daten (z.B. Tore, Punkte usw.) zusätzlich nach Heim- und Auswärtsspiel unterteilt. Eine Tabelle sollte eigentlich selbsterklärend sein, ist es aber leider nicht immer.
Beispiele, bei denen eine deskriptive Statistik von Daten ohne Einheiten (also reine Zahlen) geradezu hochgradig riskant sein kann, sind z.B. Währungen, KPIs, medizinische Dosierungen, oder auch psychometrische Skalenwerte (z.B. IQ). Bei dosiskritischen Medikamenten ist z.B. die genaue Einheit einer Zahl unbedingt zu beachten. Dieselbe Zahl kann bei unterschiedlichen Einheiten völlig verschiedene Dosen bedeuten, z.B. 15 mg (=1,5ml) im Vergleich zu 15 ml (150 mg) (vgl. Schendera, 2007, 212). Erst wenn Maßeinheit, Messvorgang und Referenzsystem geklärt sind, können Werte beschrieben und interpretiert werden.
Beispiel
Werte in verschiedenen Referenzsystemen:
Beispiel | Referenzsystem | Maßeinheit und Beispiele für Werte |
Physik | Gewicht | kg, gr |
Länge | km, m, mm | |
Zeit | yyyy, mm, dd; h, m, s; Kalendertage. | |
Finance | Währungen:Euro, Dollar | €, $ |
Ratings: | ||
Moody’s, Fitch, S&P | Caa1, CCC+, CCC (long-term, „substantial risks“). | |
Psychometrie | Stanford-Binet: IQ Intelligenz-Struktur-Test: für 15–60-Jährige: I-S-T 2000R, für 15–25-Jährige: I-S-T 2000 Schweizer Version: IST 2000R CH | Testwerte pro Modul bzw. Skala. Beispiel: 60 ist das Maximum der Skala „Numerische Intelligenz“. |
Medizin | Body-Mass-Index | BMI |
Blutdruck (systolisch, diastolisch) | mm Hg | |
Dosierungen, z.B. Insulin | IE bzw. i.e. (Internationale Einheit). |
Anders ausgedrückt: Erst wenn Maßeinheit, Messvorgang und Referenzsystem geklärt sind, können Zahlen anhand von Ziffern beschrieben und als Werte interpretiert werden. Was als selbstverständlich erscheint, ist es nicht: Die NASA verlor z.B. sogar einen Satelliten, weil die einen Ingenieure mit metrischen Einheiten arbeitete, die anderen jedoch mit englischen Einheiten. Dazu später mehr.
Gerade bei der Analyse von Daten internationaler Unternehmen ist auch auf das korrekte Format von Kalenderdaten zu achten. Es gibt derzeit mindestens drei, die europäische (TT.MM.JJJJ), die internationale (JJJJ.MM.TT) und die amerikanische Datumskonvention (MM.TT.JJJJ). Berechnungen (z.B. Differenzen) auf der Basis nicht korrekt interpretierter Kalenderdaten führen zwangsläufig zu fehlerhaften Ergebnissen. Diese Konvention ist dabei nicht der einzige Fallstrick; dazu kommen die Stellen der Jahresangabe, der Interpunktion, eine uneinheitliche zeitliche Granularität und natürlich auch allgemeine Datenfehler (z.B. Schendera, 2007, 62–66).
2.3 Messniveau einer Variablen: oder: Was hat Messen mit meinen Daten zu tun?
„Wir müssen jetzt mit dem Boden auf den Füßen bleiben.“
Jürgen Röber
Der Inhalt von Datentabellen besteht nicht nur aus Zahlen, Ziffern und Werten, die Daten besitzen auch ein Messniveau. Was bedeutet das für mich? Daten sind immer das Resultat von Messungen. Messungen können auf unterschiedlichen Niveaus vorgenommen werden. Das Messniveau ist wichtig. Das Messniveau sagt mir,
■ wie viel und welche Information (z.B. anhand welcher Maße) ich aus den Daten herausholen kann,
■ welche Aussagen ich mittels der deskriptiven Statistik treffen kann (und welche nicht),
■ welche Grafiken und Tabellen zur Visualisierung infrage kommen (und welche weniger geeignet sind) und zu guter Letzt,
■ welches inferenzstatistische Verfahren für meine gewählte Hypothese zulässig ist.
Nochmals: Das Messniveau ist wichtig! Wozu?
Kenne ich das Messniveau der auszuwertenden Daten, weiß ich, mit welchen passenden Maßen und Verfahren ich sie auswerten kann. Kenne ich das zugrunde liegende Messniveau der Maße und Verfahren, weiß ich, welche Daten ich damit auswerten kann. Die Kenntnis des Messniveaus ist wichtig für die Passung zwischen Daten und Maß bzw. Verfahren.
Für eine souveräne deskriptive Statistik schadet es also ganz und gar nicht, wenn das Messniveau der Daten selbst und die Grundlagen des Messens (zumindest in Grundzügen) bekannt sind. Was nun „Messen“ ist, versucht die Messtheorie als eine Art „Brücke“ zwischen der „wirklichen“ Welt und der Welt der „Zahlen“ zu definieren.
■ Messen ist demnach das Zuweisen von Zahlen zu Gegenständen, die eine bestimmte, empirisch beobachtbare Eigenschaft aufweisen. Eine gemessene Temperatur erhält z.B. eine bestimmte Gradzahl, eine bestimmte Laufstrecke erhält eine bestimmte Längenzahl.
■ Jedem Element aus dem empirischen Relativ wird dabei genau ein Element aus der Menge aller Zahlen (numerisches Relativ) zugeordnet. Die Laufstrecke A bekommt nur die Zahl A zugewiesen, aber nicht B oder C.
■ Zahlen (im sog. numerischen Relativ) müssen dabei dieselben Eigenschaften ausdrücken wie die beobachtbaren Gegenstände (im sog. empirischen Relativ). Wenn also die Laufstrecke A kleiner als Laufstrecke B ist, dann hat auch die zugewiesene Zahl für A kleiner als die für B zu sein.
Das Ziel ist, dass ein numerisches Relativ ein empirisches Relativ strukturgetreu abbildet. Sobald ein empirisches System auf ein numerisches System in der Weise eindeutig abgebildet wird, dass die empirischen Relationen innerhalb des empirischen Systems in den numerischen Relationen des numerischen Systems erhalten bleiben, liegt eine sog. Skala vor. Messen ist also die Bestimmung der Ausprägung einer Eigenschaft eines (Mess-)Objekts und die regelgeleitete Zuordnung von Zahlen zu Messobjekten. Liegt eine Skala vor, kann sie verschiedenen Messniveaus (Skalentypen) zugeordnet werden. Ein Messniveau kann anhand von Metadaten, Projektdokumentation oder, falls nicht vorhanden, anhand messtheoretischer Grundlagen mittels eines gesunden Menschenverstands in Erfahrung gebracht werden. Die Kenntnis der Skaleneigenschaften ist entscheidend. Jedes Skalenniveau macht erst bestimmte Maßzahlen, Grafiken oder auch statistische Verfahren sinnvoll. Auch Maße und Verfahren der deskriptiven Statistik setzen jeweils ein bestimmtes Messniveau voraus.
Abb. 3: Eine Systematisierung von Skalen- bzw. Messniveaus
In der Abbildung steigt das Skalenniveau von links („nominal“) nach rechts („verhältnis“) an. „verhältnis“ ist darin das höchste Skalenniveau, „nominal“ das niedrigste Skalenniveau. Jedes höhere Skalenniveau enthält auch die Merkmale der jeweils niedrigeren Niveaus. Je höher also das Skalenniveau, umso mehr Information bzw. komplexere Aussagen lassen sich mit einem geeigneten Maß bzw. Verfahren (z.B. der deskriptiven Statistik) „herausholen“. Welche, werden die Abschnitte 2.3.1 bis 2.3.6 erläutern.
Risiken: Informationsverlust, Unsinn und Klassierungen
Bei der Passung der Skalenniveaus der Daten und der Maße bzw. Verfahren sind u.a. drei Risiken zu vermeiden: der Informationsverlust, der errechnete Unfug und versteckte Klassierungen.
■ Informationsverlust: Für „niedrige“ Skalen konzipierte Maße (z.B. Modus) oder Verfahren (z.B. Häufigkeitsanalyse) können zwar auch auf höher skalierte Daten (z.B. Intervallniveau) angewendet werden, eben weil diese auch die Eigenschaften der niedrigeren Variablenniveaus (z.B. Nominalniveau) mit enthalten. Man muss sich aber klar sein, dass dies mit einem Informationsverlust verbunden ist: Der Informationsverlust besteht darin, dass „niedrigere“ Maße oder Verfahren außer Häufigkeit und Modus keine Aussagen über (je nachdem) größer / kleiner, Differenzen oder auch Verhältnisse erlauben, obwohl dies mit den vorliegenden Daten (z.B. auf Intervallniveau) möglich wäre, jedenfalls mit Maßen und Verfahren ab dem Intervallniveau.
■ „Errechneter Unfug“: Umgekehrt darf ich z.B. aus Daten auf Nominalniveau keinen Mittelwert bilden, weil dazu u.a. mindestens das Intervallniveau erforderlich ist. Abschnitt 2.3.1 wird anhand von Rückennummern veranschaulichen, warum das Berechnen eines Mittelwerts aus Trikotnummern zwar mathematisch möglich, aber konzeptionell sinnfrei ist.
■ Gemeinerweise können ausgerechnet in Intervalldaten klassierte Extremwerte enthalten sein, z.B. anstelle der Werte 95, 96, 97 und 98 einfach die Information „>94“. Hier sollten die Aufmerksamkeitsglocken Alarm schlagen: Diese Kategorisierung hebt die Gleichheit der Abstände auf; es handelt sich also nicht mehr um ein Intervall-, sondern um ein Ordinalniveau. Ist dieser Hinweis sogar noch als Text hinterlegt, handelt es sich womöglich sogar nur noch um ein Nominalniveau.
Liegt also eine Skala vor, kann sie verschiedenen Niveaus (Skalentypen) zugeordnet werden. Das Bestimmen des Typs einer Skala, und die Zuordnung der Art und Menge der zulässigen Transformationen wird als „Eindeutigkeitsproblem“ bezeichnet. Als die am wenigsten eindeutige Skala gilt die Nominalskala (nur die eindeutige Zuordnung von Zahlen bzw. Namen zu Entitäten ist zulässig). Weitere Skalen sind die Ordinalskala (zstzl. größer-kleiner-Relation), Intervallskala (zstzl. Äquidistanz der Ränge) und die Verhältnisskala (zstzl. mit Nullpunkt).
Es gibt prinzipiell unendlich viele zulässige Transformationen und daher Möglichkeiten, weitere Skalenniveaus zu definieren. Je spezieller die zulässigen Transformationen sind, desto kleiner ist die Klasse gleichwertiger Skalen und desto größer ist die Eindeutigkeit einer Skala. Man sollte das Skalenniveau der vorliegenden Daten rechtzeitig vor einer deskriptiven Statistik abklären. In dieser Einführung werden einzelne grundlegende Konzepte (z.B. Messung und Skalierung, vgl. z.B. Nachtigall & Wirtz, 2008; Velleman & Wilkinson, 1993; Gigerenzer, 1981; Orth, 1974) nur gestreift, daraus soll jedoch keinesfalls nicht der Schluss abgeleitet werden, dass diese weniger relevant seien.
2.3.1 Nominalskala
Die Nominalskala gilt als die am wenigsten eindeutige Skala. Ihr Vorteil ist jedoch: Alle Daten besitzen auf jeden Fall das Nominalniveau, seien sie auch vom Format String/Text, Datum/Uhrzeit, oder auch beliebige Zahlen.
■ Definition: Messungen auf einer Nominalskala liegen dann vor, wenn die Ausprägungen von Merkmalen (1) gleichwertig, (2) Unterschiede oder Gemeinsamkeiten in den Ausprägungen der Merkmale feststellbar sind und wenn sich diese Ausprägungen zugleich (3) nicht in eine natürliche Rangfolge bringen lassen. Ein Merkmal kann anhand des Urteils „gleich“ oder „ungleich“ diskreten, exklusiv-disjunkten Ausprägungen (syn.: Klassen, Kategorien) zugeteilt werden. Ein Wert kann in eine und nur in eine Kategorie fallen.
■ Mögliche Aussagen: Gleichheit / Verschiedenheit: Zwei (oder mehr) einzelne (oder auch Gruppen von) Merkmalsträger(n) haben entweder das gleiche oder ein verschiedenes Merkmal.
■ Beispiele: Merkmal: Fußballverein, Werte: BVB, FCB, HSV, S04, usw.; Merkmal: Rückennummer im Fußball, Werte: 1, 7, 13 usw.; Merkmal: Trikotfarbe, Werte: Schwarzrot, schwarzgelb, blauweiß usw.
■ Transformation: eindeutige 1:1-Zuordnung („eineindeutig“), Umbenennung
■ Mögliche Maße: Modus: Der Modus (Lagemaß) gibt die Häufigkeiten in der jew. Klasse, und auch ihre Lage an. Bei vielen gleich oder ähnlich besetzten Klassen ist der Modus oft wenig hilfreich. Mengen, Anzahl, Häufigkeiten, Prozente (absolut, relativ). Für Nominaldaten gibt es kein Streumaß.
■ Zulässige Rechenoperation: Zählung (N/n, h/H, f/F; Anzahl, Häufigkeit (absolut/relativ) bzw. Prozentanteile.
Welche Spalten aus der Bundesligatabelle enthalten Daten auf Nominalniveau? Das Kriterium, das zu erfüllen ist, lautet: Kategorien, die verschieden sind (sich aber nicht in eine Rangreihe bringen lassen). Einfach ist dies bei der Spalte „Verein“. Die Spalte „Verein“ besitzt das Nominalniveau. Es ist die Aussage möglich: Alle 16 Vereine haben unterschiedliche Namen. Wie sieht es mit der Spalte „Platz“ aus? Hier lässt sich die Aussage treffen: Alle 16 Vereine befinden sich auf unterschiedlichen Plätzen. Die Spalte „Platz“ besitzt (mindestens!) das Nominalniveau (dass Daten das Nominalniveau besitzen, schließt nicht aus, dass sie noch andere Skalenniveaus vorweisen können). Die Spalte „Spiele“ ist ebenfalls auf dem Nominalniveau (mindestens!); es ist die Aussage möglich: Alle 16 Vereine besitzen dieselbe Anzahl an Spielen. Die Spalte „Tore“ ist ebenfalls auf dem Nominalniveau, weil sie die Aussage erlaubt, die Torverhältnisse aller 16 Vereine sind verschieden. Wie steht es z.B. mit den Spalten „S“, „U“, und „N“? Jede der drei Spalten lässt die Aussage zu, dass die sechzehn Vereine teils dieselbe, teils eine unterschiedliche Anzahl an Siegen, Unentschieden oder Niederlagen aufweisen. Die Spalten „S“, „U“ und „N“ sind jeweils (mindestens!) auf dem Nominalniveau. Um es kurz zu machen: Jede Datenspalte besitzt auf jeden Fall das Nominalniveau. Spannend wird es an der Stelle: Welches andere Messniveau besitzt eine Datenspalte noch?
► Exkurs Mathematik mit Rückennummern: Sinn und Unsinn
Bei nominalskalierten Daten werden für die Kategorien eines Merkmals oft Namen, Abkürzungen oder Zahlen vergeben. Ein oben genanntes Beispiel war z.B. das der Fußballvereine. Fußballvereine können z.B. ganz ausgeschrieben angegeben werden, z.B. als „Hamburger SV“, als „HSV“ (Textkode) oder auch als Zahlenkode, z.B. 12 (hier willkürlich gewählt). Ein analoges Beispiel wären die üblicherweise maximal zweistelligen Rückennummern von u.a. auch Fußballspielern. Die Rückennummern sind auf den Trikots angebracht, damit sie von Schiedsrichtern, Zuschauern und Spielern besser auseinandergehalten werden können.
Früher war eine Rückennummer an eine bestimmte Position in der Mannschaft gebunden. Ein klassisches Beispiel ist der Torhüter, der typischerweise die Nummer 1 trägt. Gegenwärtig ist eine Rückennummer frei wählbar, sofern sie nicht bereits vergeben oder aus anderen Gründen nicht vergeben werden kann. Beim 1. FC Köln wird z.B. Lukas Podolskis Rückennummer 10 nicht mehr vergeben (es sei denn, er kehrt eines Tages zurück); bei Arsenal trägt Podolski derzeit die Nummer 9. Der BVB vergibt derzeit nicht die Rückennummer 17, die BVB-Legende Leonardo Dedé getragen hatte. Bei Hannover 96 wird die 1 zum Gedenken an Robert Enke nicht mehr vergeben. Bei vielen Clubs, z.B. dem 1. FC Kaiserslautern, ist das Trikot mit der Rückennummer 12 für die Fans des Vereins reserviert. Die einmal gewählte Nummer ist immer dem gleichen Spieler zugeordnet, solange er im Verein spielt. Spieler, die in einen anderen Verein wechseln, erhalten dort eher selten dieselbe, sondern i. Allg. eher eine andere Rückennummer. Kommen sie jedoch in ihren Verein zurück, erhalten sie oft wieder die gleiche Nummer wie vor ihrem Weggang. Ein aktuelles Beispiel ist Claudio Pizarro vom FC Bayern, der nach seiner Rückkehr von Werder Bremen wieder die Nummer 14 wie vor seinem Wechsel nach Bremen trägt.
Rückennummern von außergewöhnlichen Spielern werden z.T. gesperrt und nicht mehr vergeben. Der argentinische Verband stellte z.B. bei der FIFA erfolgreich den Antrag, die Nummer 10 zur Erinnerung an ihren Star Diego Maradona nicht mehr vergeben zu dürfen.
Rückennummern sind typische Nominaldaten: Verschiedene Nummern bedeuten verschiedene Spieler. Damit Spieler auseinandergehalten werden können, werden in einer Mannschaft weder zweimal dieselben Rückennummern vergeben, noch darf ein Spieler mit mehreren Rückennummern auflaufen. Die Rückennummern bei Bayern München in der Saison 2011/2012 waren z.B. folgendermaßen vergeben.
Tabelle: Rückennummern beim Bayern München
■ Tor: 1 Manuel Neuer, 22 Tom Starke, 24 Maximilian Riedmüller, 32 Lukas Raeder
■ Abwehr: 4 Dante, 5 Daniel van Buyten, 13 Rafinha, 17 Jérôme Boateng, 21 Philipp Lahm, 26 Diego Contento, 28 Holger Badstuber.
■ Mittelfeld: 7 Franck Ribéry, 8 Javier Martinez, 10 Arjen Robben, 11 Xherdan Shaqiri, 23 Mitchell Weiser, 27 David Alaba, 30 Luiz Gustavo, 31 Bastian Schweinsteiger, 36 Emre Can, 39 Toni Kroos, 44 Anatoli Timoschtschuk
■ Angriff: 9 Mario Mandzukic, 14 Claudio Pizarro, 20 Patrick Weihrauch, 25 Thomas Müller, 33 Mario Gomez
Keine Rückennummer ist zweimal vergeben und kein Spieler besitzt mehrere Rückennummern. Nominalskalierte Daten werden auch als qualitative Daten bezeichnet, weil sich die Werte nur in einer Qualität (z.B. „rot“) unterscheiden können. Keine Ausprägung nominal gestufter Daten kann als größer, höher oder kleiner als eine andere bezeichnet werden. Nominale Kodes, wie z.B. Rückennummern, drücken damit nur den Unterschied in einer Qualität (dem Spielernamen) aus, aber keine quantitativen Unterschiede zwischen ihnen.
Die einzelnen Qualitäten (Abstufungen) in nominalskalierten Daten sind gleich relevant. Die Abstufungen nominal skalierter Daten brauchen damit auch nicht „lückenlos“ sein. In den Rückennummern der Saison 2011/2012 „fehlen“ u.a. die Nummern 2, 6 oder 12. Das darf so sein. Die einzige Anforderung an nominalskalierte Daten ist, dass sie als verschieden oder gleich zu identifizieren erlauben; sie brauchen nicht die Anforderung „lückenlos“ erfüllen. Die einzige zulässige mathematische Operation ist das Zählen, wie häufig die jeweilige Qualität in den Daten vorkommt. Bei Rückennummern wäre das Ergebnis für jeden Bayern-Spieler dasselbe, nämlich f = 1. Ginge man nach den Vornamen, wäre das Ergebnis für „Mario“ f =2. Der Modus liegt bei „Mario“ (Mandzukic bzw. Gomez), alle anderen Vornamen haben den Wert f = 1. Einen Mittelwert aus Trikotnummern (z.B. des 1. FC Bayern München) zu berechnen, wäre zwar mathematisch möglich, jedoch ziemlich sinnfrei, weil es dem Berechnen eines Durchschnittswerts aus Spielernamen entspräche.
Exkurs ◄
2.3.2 Ordinalskala
Wie lässt sich am besten in einen Abschnitt zum Ordinalniveau einführen? Man macht es spannend! Wie lautete die zentrale Aussage zum Nominalniveau? Jede Datenspalte besitzt auf jeden Fall das Nominalniveau. Spannend ist also an dieser Stelle: Welches andere Messniveau besitzt eine Datenspalte noch? Der nächstmögliche „Kandidat“ wäre das Ordinalniveau. Ist das wirklich so einfach…?
■ Definition: Messungen auf einer Ordinalskala liegen dann vor, wenn neben Gleichheit / Verschiedenheit (Eigenschaft der Nominalskala) zusätzlich größer / kleiner-Relationen feststellbar sind. Sobald Werte in einer Rangfolge angeordnet werden können, z.B. nach Erfolgen, Geschwindigkeit, Mengen, Größe, Stärke usw., handelt es sich um ordinalskalierte Daten. Die Abstände zwischen den einzelnen Rängen müssen nicht notwendigerweise gleich sein (Äquidistanz). Der absolute Abstand zwischen den Rängen ist für die Definition nicht wichtig, oft aber für die Analyse und Interpretation.
■ Mögliche Aussagen: Größer-/kleiner-Relation: Zwei (oder mehr) einzelne (Gruppen von) Merkmalsträger(n) haben ein größeres, kleineres oder auch ein gleich großes Merkmal.
■ Beispiele: Merkmal: Bundesligen, Werte: 1. Liga, 2. Liga, 3. Liga usw.; Merkmal: Bundesliga, Werte: 1. Rang, 2. Rang, 3. Rang usw.; Merkmal: Sportliche (Miss-)Erfolge, Werte: Champions League (CL) Teilnahme, CL Qualifikation, UEFA Cup, „Mittelfeld“, Relegation, Abstieg.
■ Transformation: streng monoton steigend.
■ Mögliche Maße: Lagemaße: Minimum, Maximum, Median (bei einer ungeraden Zahl an Abstufungen beobachtet), Quantile, Modus. Streumaße: Spannweite ohne R, Interquartils ab stand, Quantildifferenzen.
■ Zulässige Rechenoperation: f (Anzahl, frequency) bzw. Prozentanteile. Es wird besonders auf die ausführlichen Hinweise unter „Mathematische Transformationen“ und „Kodierungen“ verwiesen.
■ Besonderes: Ranking Scales: Ranking von Ligen, Teams, Spielern (MVP); Rating Scales: Rating von Finanzprodukten („AAA“, „AA+“, „AA“ usw. (z.B. S&P), Bonität von Schuldnern, Schulnoten („sehr gut“, „gut“ etc.), Zustimmung („sehr“, „überwiegend“ usw.).
Welche Spalten aus der Bundesligatabelle enthalten Daten auf Ordinalniveau? Das Kriterium, das zu erfüllen ist, lautet: Kategorien, die verschieden sind und sich in eine Rangreihe bringen lassen. Einfach ist es bei der Spalte „Platz“. Anhand der möglichen Aussage lässt sich der Schluss ziehen: Jeder der Plätze nimmt im Vergleich zu allen anderen einen besseren und/oder auch einen schlechteren Rang in der Tabelle ein. Der 1. Platz ist z.B. besser als der 2. Platz und 3. Platz usw., der 2. Platz ist z.B. besser als der 3. und 4. Platz usw. (jedoch schlechter als der 1. Platz) usw. Die Spalte „Platz“ besitzt auch ein Ordinalniveau. Wie sieht es mit der Spalte „Verein“ aus? Die Qualität der Vereinsnamen ist unterschiedlich („1. FC Köln“ ist nun einmal ein anderer Vereinsname als z.B. „Borussia Mönchengladbach“), sie lässt sich aber nicht in eine Rangfolge bringen (die unterschiedlichen Ränge der Vereine werden durch die Spalte „Platz“ ausgedrückt). Die Spalte „Verein“ besitzt also nur das Nominalniveau, aber nicht das Ordinalniveau. Ob die Spalte „Platz“ auch das Intervallniveau besitzt, wird im nächsten Abschnitt diskutiert. Die Spalten „Spiele“, „S“, „U“, „N“, „Diff“ und „Pkt“ sind jeweils auf dem Ordinalniveau (mindestens!); es ist die Aussage möglich: Jeder der 16 Werte über Spiele, Siege, Unentschieden, Niederlagen, Tordifferenz oder Punkte ist im Vergleich zu den jeweils anderen Werten größer, kleiner oder z.T. auch gleich. Interessant ist nun die Spalte „Tore“, sie beschreibt genau betrachtet das Verhältnis aus den geschossenen bzw. kassierten Toren. Um uns die Arbeit zu erleichtern, betrachten wir einfach zwei gleiche Differenzwerte, nämlich die Tordifferenz von -4 bei Hannover 96 und Mainz 05, und bewegen uns von dort zu den Torverhältnissen. Bei Hannover 96 finden wir 41:45 Tore, bei Mainz 05 dagegen 47:51. Die Torverhältnisse sind also verschieden, so gesehen können wir keine eindeutige größer/kleiner-Relation für die Spalte „Tore“ festhalten. Man könnte sich jetzt umständlich mit Zusatzannahmen behelfen, dass die Anzahl der geschossenen Tore wichtiger sei usw. Wir aber machen es unkompliziert: Die Spalte „Tore“ enthält keine „richtigen“ Zahlen, sondern Zahlenpaare, die wir weiterhin auf das Nominalniveau beschränken. Mit der Aussage „ungleich“ sind 41:45 bzw. 47:51 eindeutig differenziert, nämlich als ungleiche Abfolge von Zeichen („gleich“ i.S.e. Ergebnisses einer Rechenoperation haben wir per definitionem ausgeschlossen). An dieser Stelle können wir ein Zwischenfazit treffen: „Verein“ und „Tore“ beschränken sich auf das Nominalniveau. Spannend wird es nun für die übrigen Daten: Welche Spalte besitzt auch das Intervallniveau?
► Exkurs: Besondere Hinweise
■ Rating / Ranking Scales: Bei Ordinalskalen wird zwischen Rating und Ranking Scales unterschieden (Lorenz, 1992, 12ff.). Bei Ranking Scales wird eine diskrete Anzahl von Objekten anhand eines Kriteriums bzw. der Intensität eines Merkmals in eine Rangfolge gebracht. Beispiele für Ranking Scales sind z.B. Ligen (1. Liga, 2. Liga, 3. Liga usw.), Teams (1. Platz, 2. Platz usw.), Spieler (wichtigster Spieler, MVP). Bei Rating Scales wird anhand einer Berechnungsvorschrift eine Prüfung und Bewertung („Rating“) vorgenommen und ein Punktwert vergeben, der letztlich über den Rang entscheidet. Beispiele für Rating Scales sind z.B. Ratings von Finanzprodukten („AAA“, „AA+“, „AA“ usw. (z.B. Standard & Poor’s), Bonität von Schuldnern („uneingeschränkt kreditwürdig“, „eingeschränkt kreditwürdig“, „nicht kreditwürdig“, Schulnoten („sehr gut“, „gut“ etc.), Zustimmung („sehr“, „überwiegend“ usw.).
■ Mathematische Transformationen I: Differenzen? Bei Ordinalskalen ist man oft bereits versucht, mathematische Operationen, wie z.B. Differenzen, zu bilden. Nehmen wir der Plakativität halber an, wir wollen zwischen den Rängen „Champions League (CL) Teilnahme“ und „UEFA Cup“ eine mathematische Differenz gemäß der Logik B – A = C bilden? Ja! wird jemand rufen, in der CL geht es um mehr Geld! Die Differenz ist sozusagen der Unterschied im (auch!) materiellen Anreiz. Leider nein, muss man dem entgegenhalten: Denn: Mit diesem Einwand wurde flugs die Einheit der Differenz gewechselt: Waren es in der ursprünglichen Formulierung unterschiedlich bedeutsame sportliche Erfolge, wechselt der Einwand auf eine monetäre Einheit, z.B. Euro, und diese sind mindestens auf dem Intervallniveau (auf denen tatsächliche Differenzen zulässig sind). Eine Differenz aus zwei ordinalen, qualitativ verschiedenen Rängen zu bilden, ist üblicherweise sehr sehr schwierig herzuleiten bzw. zu interpretieren. Ein Sinn einer mathematischen Differenz aus den ordinalen Rängen „Champions League (CL) Teilnahme“ und „UEFA Cup“ erschließt sich z.B. nicht.
■ Mathematische Transformationen II: Quotienten? Zulässige Operationen sind f (Anzahl, frequency) bzw. Prozentanteile. Aus mathematischer Sicht sind bei der Ordinalskala nur mathematische Transformationen zulässig, die nicht die Abfolge der bezeichneten Objekte ändern. Die Bildung von Differenzen, Quotienten, Summen oder Mittelwerten mittels Ordinalskalen ist methodisch gesehen nicht sinnvoll und kann u.U. sogar irreführend sein. Dazu ein kleines Beispiel mit Schulnoten (ja, Schulnoten sind auf der Ordinalskala!) von vier Schüler-Innen A, B, C und D: Haben A und D dieselbe Schulnote, z.B. „1“ [„sehr gut“], so haben sie auch dieselbe Leistung gezeigt (gleiche Zahl = gleiche Qualität [auf derselben Stufe]). Hat B z.B. „2“ [„gut“], eine kleinere Schulnote wie C, „3“ [„befriedigend“], so hat B eine bessere als C gezeigt (ungleiche Zahlen = Qualität in unterschiedlichen Abstufungen; je kleiner die Zahl, desto besser die Qualität). Wird versucht, aus den qualitativen Rangurteilen eine Differenz zu bilden, z.B. „sehr gut“ – „gut“ bzw. „gut“ – „befriedigend“, so ist es nicht möglich, eine Aussage über den präzisen Leistungsunterschied abzuleiten (keine Differenz möglich; dies würde Äquidistanz voraussetzen). Daraus folgt, dass auch nicht gesagt werden kann, dass ein „sehr gut“ doppelt so gut ist wie ein „gut“ oder sogar dreimal so gut wie ein „befriedigend“ (kein Quotient möglich). Werden für A, B, C und D anhand von Kodes die Leistungsunterschiede ermittelt, so beging man oft eine unzulässige Informationsanreicherung der Messskala. Diese Diskussion wird bei den „Kodes“ fortgesetzt.
■ Kodierungen I: Numerisch: Für die Kodierung der Ausprägungen von Ratingskalen, z.B. Schulnoten („sehr gut“, „gut“, usw.), Zustimmung („sehr“, „überwiegend“, usw.) oder Zutreffen („trifft sehr zu“, „trifft zu“ usw.), werden üblicherweise Zahlen vergeben (meist 1 bis 4 bzw. 6, je nach Rangskala). Das Problem der zugewiesenen numerischen Skala ist, dass sie meist über regelmäßige Abstände verfügt. Das gilt auch für scheinbar alternative Kodierungen, wie z.B. 2, 4, 6 usw., 10, 20, 30 usw. oder auch 11, 12, 13 usw. In allen Fällen wurde die original „qualitative“ Ordinalskala unzulässigerweise um die Information der Äquidistanz angereichert. Das Problem ist: Diese Kodierungen suggerieren, dass die Abstände zwischen den quantitativen Stufen (1, 2, 3, usw.) exakt gleich sind, obwohl sie es faktisch nicht sind („sehr gut“, „gut“, „befriedigend“ usw.). Die Methodenforschung bemüht sich zwar um den Nachweis, dass sich Skalen mit wenigen qualitativen Rängen in etwa den Abständen zwischen den quantitativen Stufen annähern. Als eine echte Lösung des Problems von Ordinalskalen erschließt sich dies jedoch nicht. Unkonventionellere Kodierungen (wie z.B. 1, 8, 13, 27) zu wählen, ist ebenfalls keine befriedigende Lösung, weil die jeweils gewählte quantitative Kodierung außerdem einen Einfluss auf die erzielten Statistiken haben kann. Wenn Mittelwerte unbedingt mit Ordinaldaten berechnet werden müssen (was z.B. oft Auswertungsmanuale psychometrischer Skalen verlangen), so sollte zumindest der Effekt verschiedener Kodierungen überprüft und ausgeschlossen werden.
■ Kodierungen II: String / Text: Ränge können auch direkt, alphanumerisch, als Text an die Software übergeben werden. In diesem Falle sollten Text-Rangfolgen auf mögliche Sortierfehler geprüft werden. Korrekt und konsistent wäre z.B. eine Text-Rangfolge wie z.B. „klein“, „mittel“ oder „riesig“ (konsistente Rangreihe: k < m < r). Inkorrekt, weil inkonsistent, wäre z.B. eine Text-Rangfolge wie z.B. „schwach“, „mittel“ oder „stark“ (inkonsistente Rangreihe: s > m < s).
Exkurs ◄
Tipp!
Vermeiden Sie alphanumerische Kodierungen, z.B. von Bewertungen („schwach“, „mittel“, „stark“ oder „high“, „average“ und „low“) oder z.B. von Monaten (z.B. „Jan“, „Feb“, „Mar“ usw.) oder Jahreszeiten („Frühling“, „Sommer“ usw.). Alphanumerisch sortiert würde z.B. „mittel“ zwischen „schwach“ und „stark“, „high“ zwischen „average“ und „low“, „Apr“ vor „Feb“ oder auch der „Herbst“ vor „Sommer“ usw. sortiert werden.
Ordinalskalierte Variablen erlauben im Gegensatz zu nominal skalierten Variablen schon Aussagen i.S.v. größer oder kleiner, aber das um wie viel besser, größer, stärker oder intensiver kann erst ab dem Intervallskalenniveau numerisch, also quantitativ, ausgedrückt wiedergegeben werden.
Ordinaldaten sind heikel für die deskriptive Statistik (und nicht nur dort). Die Empfehlung ist, sofern möglich, Daten für u.a. Differenz- oder Mittelwerte nur ab Intervallskalenniveau zu erheben (damit wäre eine Mittelwertbildung zulässig).
2.3.3 Intervallskala
Während die Abstände der einzelnen Ränge also bei Ordinalskalen noch nicht gleich sind, unterscheidet sich die Intervallskala darin, dass die Ränge auf ihrer Skala gleiche Abstände aufweisen (Äquidistanz). Gleiche Abstände bedeuten, dass ab nun Differenzen gemessen werden können. Daher kann erst ab dem Intervallskalenniveau das um wie viel besser, größer, stärker oder intensiver usw. in Zahlen ausgedrückt werden.
■ Definition: Messungen auf einer Intervallskala liegen dann vor, wenn neben Gleichheit/Verschiedenheit (Eigenschaft der Nominalskala), größer/kleiner-Relationen (Eigenschaft der Ordinalskala) auch die Größe von Unterschieden feststellbar ist.
■ Mögliche Aussagen: Äquidistanz: Die Differenzen von zwei (oder mehr) einzelner (oder auch Gruppen von) Merkmalsträgern sind gleich (oder auch ungleich).
■ Beispiele: Merkmal: Temperatur. Ein Unterschied zwischen 4 und 8 Grad Celsius ist gleich groß wie zwischen 20 und 24 °C; Merkmal: Uhrzeiten (Zeitmessungen): Die Differenz zwischen 20:15 und 21:45 ist genauso groß wie zwischen 18:00 und 19:30; Merkmal: Bundesligapunkte: Der Unterschied zwischen 81 und 73 Punkten ist genau so groß wie zwischen 48 und 40.
■ Transformation: linear.
■ Mögliche Maße: Lagemaße: Mittelwert, Minimum, Maximum, Median (auch berechnet), Quantile, Modus. Streumaße: Standardabweichung, Varianz, Spannweite R, Interquartilsabstand, Quantildifferenzen.
■ Zulässige Rechenoperation: numerische Differenzen, Mittelwert; f (Anzahl, frequency) bzw. Prozentanteile.
Welche Spalten aus der Bundesligatabelle enthalten Daten auf Intervallniveau? Das Kriterium, das zu erfüllen ist, lautet: Kategorien, die verschieden sind, sich in eine Rangreihe bringen lassen und deren Abstände genau gemessen werden können. Tricky ist es bei der Spalte „Platz“. Einerseits ließe sich argumentieren: Der Abstand zwischen den Rangwerten 1 und 3 erscheint genauso groß wie zwischen den Rangwerten 5 und 7 bzw. größer als zwischen den Rangwerten 5 und 6. Damit besäße die Spalte „Platz“ also auch ein Intervallniveau. Andererseits wäre es nicht weniger plausibel zu argumentieren: Die Rangwerte sind in Wirklichkeit nur „Kodes“, deren Abstände in Wirklichkeit auch unterschiedliche Punktzahlen aufweisen können (vgl. „Pkt“). Der Abstand zwischen den Plätzen 1 und 2 (8 Punkte) ist größer als zwischen den Plätzen 4 und 5 (4 Punkte) bzw. größer als zwischen den Plätzen 5 und 6 (1 Punkt). Damit besäße die Spalte „Platz“ weiterhin „nur“ ein Ordinalniveau. Der Unterschied zwischen Ordinalniveau (auf der Basis von Kodes) und Intervallniveau (auf der Basis von Werten) lässt sich über den Rückgriff auf Informationen „außerhalb“ der betreffenden Ordinaldaten differenzieren. Die Spalte „Platz“ hat damit zwei Gesichter: Die numerischen Kodes haben (selbstverständlich) Intervallniveau. Die Ränge, die diese Kodes repräsentieren, weisen jedoch keine äquidistanten Abstände auf, sind also (weiterhin) Ordinalniveau. Für welche Interpretation man sich nun entscheidet, liegt im Ermessen des Anwenders. Für uns, so legen wir jetzt fest, besitzt die Spalte „Platz“ weiterhin „nur“ Ordinalniveau. Die Spalte „Verein“ besitzt, wie wir wissen, nur das Nominalniveau. Wie sieht es mit den Spalten „Spiele“, „S“, „U“, „N“, „Diff“ und „Pkt“ aus? Nehmen wir zunächst die Spalte „Spiele“. Der Unterschied zwischen 34 und 34 Punkten ist jeweils exakt gleich groß. Springen wir gleich zur Spalte „Pkt“. Der Unterschied zwischen 81 und 73 Punkten ist genau so groß wie zwischen 48 und 40 Punkten, aber größer als zwischen 31 und 30 Punkten. Die Spalten „Spiele“ und „Pkt“ besitzen also auch ein Intervallniveau. Die Spalte „Tore“ besitzt, nach unserem Dafürhalten, nur das Nominalniveau. Wie es mit den Spalten „S“, „U“, „N“ und „Diff“ aussieht, überlassen wir bis zum nächsten Abschnitt vertrauensvoll der Kompetenz der werten Leserinnen und Leser. Das Zwischenfazit an dieser Stelle lautet: „Verein“ und „Tore“ beschränken sich auf das Nominalniveau. Alle anderen Spalten besitzen neben dem Ordinalniveau auch das Intervallniveau.
Während das Ordinalniveau nur aus sagt, dass etwas besser oder schlechter sei, erlaubt ein Intervallniveau auch auszusagen, um wie viel besser ein Wert ist. Gemeinsam von Ordinal- und Intervallniveau ist die Aussage, dass etwas gleich bzw. nicht verschieden ist. Ein Intervallniveau wird nicht mehr als diskret, sondern als kontinuierlich bezeichnet. Ab intervallskalierten Variablen wird auch von quantitativen Variablen gesprochen.
2.3.4 Verhältnisskala
■ Definition: Messungen auf einer Verhältnisskala liegen dann vor, wenn neben Gleichheit / Verschiedenheit (aus: Nominalskala), größer / kleiner-Relationen (aus: Ordinalskala), die Größe von Unterschieden (aus: Intervallskala) auch ein eindeutiger Nullpunkt vorliegt. Weiter unten finden sich weitere Hinweise zum Nullpunkt.
■ Mögliche Aussagen: Gleichheit von Verhältnissen: Die Verhältnisse von zwei (oder mehr) einzelnen (oder auch Gruppen von) Merkmalsträgern sind gleich (oder auch ungleich).
■ Beispiele: Merkmal: Nährwert in der Ausprägung kJoule: Ein Gericht mit 2400 kJ hat doppelt so viele kJoule wie ein Gericht mit 1200kJ; Merkmal: Gewässertiefe ab NN (Normalnull) in Metern: 40 m ist doppelt so tief wie 20 m; Merkmal: Ein Spielereinsatz von 30 Minuten ist halb so lang wie der Einsatz eines Spielers von 60 Minuten.
■ Transformation: proportional.
■ Mögliche Maße: Lagemaße: Geometrisches Mittel, Mittelwert, Minimum, Maximum, Median (auch berechnet), Quantile, Modus. Streumaße: Variationskoeffizient, Standardabweichung, Varianz, Spannweite R, Interquartilsabstand, Quantildifferenzen.
■ Zulässige Rechenoperation: Quotienten; Multiplikation mit einer Konstanten ungleich Null; numerische Differenzen, Mittelwert; f (Anzahl, frequency) bzw. Prozentanteile.
■ Besonderes: Nullpunkte, Temperaturen.
Besondere Hinweise
Nullpunkt
Der eindeutige Nullpunkt kann von einem willkürlich festgesetzten Nullpunkt dadurch unterschieden werden, dass es keine Werte geben kann, die unter diesem Nullpunkt liegen.
Beispiele für absolute Nullpunkte:
■ Ein Mittagessen kann nicht minus kJ aufweisen.
■ Ein Mensch kann kein negatives Gewicht aufweisen (auch wenn ein Blick auf die Badezimmerwaage einen anderen Eindruck vermitteln sollte).
■ Ein Fußballspiel kann nicht weniger als 0 Minuten dauern (eigentlich auch nicht weniger als 90 Minuten).
Beispiele für willkürlich gesetzte Nullpunkte:
■ Eine Fußballmannschaft sollte keinen negativen Punktestand aufweisen; wegen Sanktionsmaßnahmen kann dies trotzdem passieren. „Punktes tand“ besitzt daher einen willkürlichen Nullpunkt.
■ Ein explizit eingerichtetes Überziehungslimit sorgt dafür, dass ein Konto nicht in die „roten Zahlen“ gerät. Ist dieses Limit deaktiviert, könnte das Konto evtl. überzogen werden. „Kontostand“ besitzt daher einen willkürlichen Nullpunkt.
Temperaturen
Es gibt Temperatureinheiten mit und ohne Nullpunkt:
■ Kelvin: Kelvin besitzt einen Nullpunkt. Kelvin besitzt daher eine Verhältnisskala. Die Aussage „400 Kelvin ist doppelt so warm wie 200 Kelvin“ ist sinnvoll, da keine Werte unter 0 Kelvin vorkommen können.
■ Celsius / Fahrenheit: Celsius bzw. Fahrenheit besitzen keinen Nullpunkt. Celsius bzw. Fahrenheit besitzen daher „nur“ eine Intervallskala. Die Aussage „24 °C ist doppelt so warm wie 12 °C“ ist nicht sinnvoll, weil Temperaturen in Celsius auch unter Null vorkommen können.
Welche Spalten aus der Bundesligatabelle enthalten Daten auf Verhältnisskalenniveau? Diese Frage lässt sich einfach beantworten, indem sie umformuliert wird: Welche Spalten aus der Bundesligatabelle auf Intervallniveau enthalten einen Nullpunkt? Das Kriterium, das zu erfüllen ist, lautet: Kategorien, die verschieden sind, sich in eine Rangreihe bringen lassen, Abstände genau messbar sind und die einen Nullpunkt aufweisen. Die Spalte „Verein“ besitzt, wie wir wissen, nur das Nominalniveau; für „Platz“ haben wir uns für das Ordinalniveau entschieden, für „Tore“ für Nominalniveau. Wie sieht es mit den Spalten „Spiele“, „S“, „U“, „N“, „Diff“ und „Pkt“ aus? Nehmen wir zunächst die Spalte „Spiele“. Die Spalte „Spiele“ besitzt z.B. einen Nullpunkt, enthält also auch das Verhältnisskalenniveau. Der Unterschied zwischen 34 und 34 Punkten ist jeweils exakt gleich groß. Springen wir gleich zur Spalte „Pkt“. Der Unterschied zwischen 81 (Dortmund) und 73 (Bayern) Punkten (8 Punkte) ist genau doppelt so groß wie zwischen 64 (Schalke) und 60 (Gladbach) Punkten (4 Punkte), und mehr als doppelt so groß wie so groß wie zwischen 42 (Wolfsburg) und 40 (Bremen) Punkten (2 Punkte). Die Spalten „Spiele“ und „Pkt“ besitzen also auch ein Verhältnisniveau. Die Spalte „Tore“ besitzt, nach unserem Dafürhalten, nur das Nominalniveau. Die Spalten „S“, „U“, und „N“ besitzen einen Nullpunkt, sind daher mindestens auf Verhältnis niveau. Die Spalte „Diff“ hat keinen Nullpunkt und besitzt damit „nur“ das Intervallniveau. Das Zwischenfazit an dieser Stelle lautet: „Verein“ und „Tore beschränken sich auf das Nominalniveau, „Platz“ auf das Ordinalniveau. Die Spalten „Diff“ besitzt das Intervallniveau. Alle anderen Spalten („Spiele“, „S“, „U“, „N“ und „Pkt“) besitzen mindestens auch das Verhältnisniveau.
Zur Erinnerung: Erst verhältnisskalierte Daten (mit Nullpunkt) erlauben die Aussage, dass ein Wert doppelt so groß sei wie ein anderer Wert. Intervall- und verhältnisskalierte Variablen bilden zusammen mit der Absolutskala die höchste Variablengruppe, die der metrischen Variablen.
2.3.5 Absolutskala
■ Definition: Messungen auf einer Absolutskala liegen dann vor, wenn ein Nullpunkt und eine natürliche Maßeinheit gegeben sind.
■ Mögliche Aussagen: Gleichheit / Ungleichheit von Häufigkeiten (Zähldaten).
■ Beispiele: Merkmal: Bundesligapunkte: Schalke 04 (64) hat mehr als doppelt so viele Punkte wie Herta BSC (31); Merkmal: Aufstellungen: Die Aufstellung des SC Freiburg umfasst genauso viele Spieler wie die von Hannover 96 (11); Merkmal: Unentschieden: Borussia Dortmund hat in der Saison 2011/2012 mehr Unentschieden (6) als der VfL Wolfsburg (5).
■ Transformation: keine.
■ Mögliche Maße: Häufigkeit (Zähldaten).
■ Zulässige Rechenoption: Ermittlung von Häufigkeiten.
Welche Spalten aus der Bundesligatabelle enthalten Daten auf Absolutskalenniveau? Von allen Spalten aus der Bundesligatabelle müssen nur noch „Spiele“, „S“, „U“, „N“ und „Pkt“ festgelegt werden. „Verein“ und „Tore“ besitzen Nominalniveau, „Platz“ Ordinalniveau, und „Diff“ Intervallniveau. Das Kriterium, das zu erfüllen ist, lautet: Kategorien, die verschieden sind, sich in eine Rangreihe bringen lassen, deren Abstände genau gemessen werden können, einen Nullpunkt und eine natürliche Maßeinheit besitzen. Eine Absolutskala liegt also dann vor, wenn ein Nullpunkt und eine natürliche Maßeinheit gegeben sind. Eine natürliche Maßeinheit weisen z.B. Zähldaten auf, z.B. Seitenzahlen in einem Buch oder Anzahl von Zuschauern in einem Stadion. So gesehen ist es bei „Spiele“, „S“, „U“, „N“ und „Pkt“ insgesamt einfach: Alle fünf verbleibenden Spalten zählen etwas ab Null: „Spiele“ zählt die Anzahl der Spiele bis Saisonende. „S“, „U“, und „N“ zählen die Anzahl der Siege, Unentschieden und Niederlagen bis zum Saisonabschluss. „Pkt“ zählt die Anzahl der erzielten Punkte. Das abschließende Fazit lautet: „Verein“ und „Tore beschränken sich auf das Nominalniveau, „Platz“ auf das Ordinalniveau. Die Spalten „Diff“ besitzt das Intervallniveau. Die Spalten „Spiele“, „S“, „U“, „N“ und „Pkt“ besitzen auch das Absolutniveau.
Merkhilfe Mit „Nein“ sagen weniger mit Skalen plagen:
[1] | Lässt sich das Merkmal in eine von Daten beschriebene Rangfolge bringen? Nein: Nominalskala |
[2] | Sind die Abstände zwischen zwei Rängen auf der Skala immer gleich (darf man also u.a. Differenzen bilden)? Nein: Ordinalskala |
[3] | Hat die Skala einen eindeutigen Nullpunkt (darf man also u.a. Mittelwerte bilden)? Nein: Intervallskala |
[4] | Hat die Skala keinen Nullpunkt (darf man also u.a. Proportionen bilden)? Nein: Verhältnisskala |
[5] | Hat die Skala Einheiten, z.B. €, PS, Kilometer? Nein: Absolutskala |
2.3.6 Weitere Skalenbegriffe
Neben den vorgestellten gibt es viele weitere Skalen, z.B. die Hype rordinalskalen (Rangordnung der Objektdifferenz), oder auch logarithmische Intervallskalen. Es gibt auch zahlreiche Oberbegriffe für Skalen, die hier kurz stichwortartig abgehandelt werden sollen; dazu gehören z.B. binäre (zweistufige Skalen), dicho- bzw. polytome (zwei- bzw. mehrstufige Skalen), diskrete (diskontinuierliche) vs. stetige (kontinuierliche) Skalen (vgl. anschließende Erläuterungen), kategoriale Skalen (zwei- bis mehrstufige Skalen), metrische Skalen (ab einschl. Intervallskala), qualitative / quantitative Skalen (vgl. anschließende Erläuterungen). Oft wird die Eigenschaft der Skala auf die betreffende Datenspalte bzw. Variable sprachlich verallgemeinert. Wurde z.B. eingangs gesagt, die Spalte „Verein“ besitze das Nominalniveau, so wird häufig stattdessen kürzer gesagt, z.B. die nominalskalierte bzw. Nominalvariable „Verein“. Die nachfolgenden Erläuterungen drücken nun genau dasselbe aus; sie beziehen sich in ihrer Formulierungen nicht auf die Skala, sondern auf die Datenspalte (Variable) mit dieser Skala.
Qualitative und quantitative Variablen: Art der Ausprägungen
Qualitative Variablen
Qualitative Variablen lassen sich in ihren Ausprägungen nur durch ihre Art oder ihren Rang unterscheiden. Qualitative Variablen sind nominal- oder ordinalskalierte Variablen, da diese nur in einer Qualität oder ihrem Rang unterschieden werden können.
Beispiele
Spielart: „Auswärtsspiel“, „Heimspiel“, „Freundschaftsspiel“, „Geisterspiel“ usw.
Schulnoten: „sehr gut“, „gut“ etc.
Quantitative Variablen
Quantitative Variablen sind Variablen ab dem Intervallniveau, die auf der Basis einer numerischen Skala mit einem einheitlichen Abstandsmaß genau geordnet werden können.
Beispiele
Punktestand (z.B. zur Winterpause).
Alter (z.B. in Jahren).
Temperaturen (z.B. in C).
Diskrete und stetige Variablen: Anzahl theoretisch möglicher Ausprägungen
Diskrete Variablen sind Variablen, die nur eine überschaubare, begrenzte Anzahl von Werten aufweisen. Stetige Variablen sind dagegen Variablen, die eine unübersehbare, unbegrenzte Anzahl von Werten aufweisen. Zu den diskreten Skalen werden üblicherweise Nominal- und Ordinalvariablen gezählt. Diskrete Skalen werden oft als Klassifikationsvariablen verwendet. Diskrete Skalen werden auch als topologische Skalen bezeichnet.
Intervall-, Verhältnis- und Absolutvariablen werden üblicherweise zu den stetigen Skalen gezählt (können jedoch auch als stetig skaliert definiert werden). Stetige Skalen werden bevorzugt als abhängige Variablen in Kausalmodellierungen verwendet. In der Praxis können stetige Variablen auch wie diskrete Variablen behandelt werden, z.B. eine Altersangabe in Jahren als Klassifikationsvariable (bei einer überschaubaren Anzahl an Werteausprägungen). Stetige Skalen werden auch als kontinuierliche bzw. Kardinalsskalen bezeichnet.
Diskrete Variablen
Diskrete Variablen sind Variablen, die nur eine überschaubare, begrenzte Anzahl von Werten aufweisen. Diskrete Variablen können nur bestimmte Werte annehmen, aber nicht jeden beliebigen. Es handelt sich damit um abzählbar viele Werte.
► Beispiele
Fußballmannschaft: Anzahl von Spielern pro Team: Die Anzahl der Spieler ist auf 11 begrenzt und kann als diskret gelten.
Ticketkauf: Am Ticketschalter enthält man immer nur diskrete Stückzahlen, z.B. 3 oder 4 Tickets, aber z.B. niemals 3,43 Tickets.
Anzahl der Tore in einem Spiel: Die Anzahl der Tore in einem Fußballspiel (zumindest der Gegenwart) gilt generell als überschaubar und damit als diskret.
Stetige Variablen
Stetige Variablen sind Variablen, die im Prinzip eine unübersehbare, unbegrenzte Anzahl von Werten aufweisen können, auch in einem begrenzten Wertebereich.
► Beispiele
Spieldauer: Die Dauer eines Spieles ist üblicherweise auf 90 Minuten plus Nachspielzeit begrenzt. Die Werte bis zum Abpfiff sind aber nicht notwendigerweise überschaubar, da die Ausprägungen theoretisch unendlich genau sein können. Professionelle „Live-Ticker“ können bis auf Sekundenbruchteile genau sein, sofern es denn erforderlich ist. Die Dauer eines Spieles ist eine stetige Variable.
Public-Viewing-Besucher: Die Anzahl von Besuchern beim Public Viewing oder von Fanmeilen kann, bei ansprechenden Turnieren und einer günstigen Außenwitterung, oft nicht mehr genau gezählt werden, sondern ist nur noch als eine unübersehbare Anzahl darstellbar. Die Anzahl von Besuchern beim Public Viewing wird daher als stetige Variable betrachtet.
Anzahl der Zuschauer in einem Fußballspiel: Obwohl die Anzahl der maximal möglichen Zuschauer in einem Stadion auf einen bestimmten Wert begrenzt ist, können die möglichen Zuschauerzahlen unter diesem Wert theoretisch unendlich fein gemessen werden. Die Anzahl der Zuschauer in einem Fußballspiel ist eine stetige Variable.
Das Verhältnis der Skalenniveaus untereinander
Die Skalenniveaus sind hierarchisch geordnet. Jedes höhere Skalenniveau erfüllt auch die Anforderungen aller niedrigeren Niveaus. Die Nominalskala enthält nur die eindeutige Zuordnung nach „gleich“ / „ungleich“. Die Ordinalskala enthält zstzl. die größer-kleiner-Relation. Die Intervallskala enthält zstzl. die Äquidistanz der Ränge. Die Verhältnisskala enthält zstzl. einen Nullpunkt. Die Absolutskala enthält zstzl. eine natürliche Maßeinheit.
Je höher also das Skalenniveau, umso mehr Information lässt sich mit einem geeigneten statistischen Verfahren aus den Daten ableiten. Für „niedrige“ Skalen konzipierte Verfahren können auch auf höher skalierte Variablen angewendet werden (weil diese auch die Eigenschaft der niedrigeren Skalenniveaus mit enthalten). Allerdings ist dies mit einem Informationsverlust verbunden. Für Ordinaldaten konzipierte Verfahren können z.B. auch auf intervallskalierte Variablen angewendet werden, weil diese ebenfalls die größer/kleiner-Eigenschaft (neben der Nominalinformation) enthalten. Der Informationsverlust besteht darin, dass ein Ordinalverfahren für intervallskalierte Variablen nur die größer/kleiner-Relation (neben der Nominalinformation) erfasst, aber nicht mehr das Ausmaß der Unterschiede.
Voreinstellungen der verschiedenen Analysesoftware
Stringvariablen (syn.: alphanumerisch, „Character“ oder Text) werden üblicherweise als Nominalniveau interpretiert. Interessant wird es bei neu angelegten numerischen Variablen. Bestimmte Datenmerkmale führen dazu, dass die jeweilige Analysesoftware automatisch ein Skalenmessniveau zuweist. SPSS weist z.B. automatisch das Intervallskalenniveau zu, wenn z.B. die betreffende Variable mindestens 24 (Voreinstellung) gültige, eindeutige Werte aufweist (bei weniger als 24 gültigen Werten weist SPSS nicht das Ordinal-, sondern das Nominalniveau zu). Enthält die betreffende Variable das Format „Dollar“, „Spezielle Währung“ oder auch „Datum“ oder „Uhrzeit“ (jedoch nicht bei MONTH und WKDAY), so weist SPSS ebenfalls automatisch das Intervallskalenniveau zu.
Auch bei anderer Gelegenheit, z.B. der Migration von Daten aus einer Datenhaltung in eine andere, stellen Anwender nach dem Einlesen von Fremddaten fest, dass die numerischen Daten bereits vor bzw. während dem Einlesen fälschlicherweise als Strings definiert worden waren. Um ausgewertet werden zu können, müssen diese Daten zuvor das richtig Messniveau oder zumindest den korrekten Datentyp erhalten. Ein Umdefinieren des Typs von hunderten oder tausenden von Datenspalten „per Hand“ kommt für gewiefte Anwender selbstverständlich nicht infrage und kann mit Makroprogrammierungen ausgesprochen elegant gelöst werden (für SAS: vgl. Schendera, 2012, 2011; für SPSS: vgl. Schendera, 2007, 2005).
2.4 Konsequenzen des Messniveaus für die praktische Arbeit mit Daten
Die Bedeutsamkeit des Messniveaus hat Konsequenzen für die praktische Arbeit mit Daten:
■ Sind die Daten bereits erhoben, so gilt: Je höher das Skalenniveau, desto mehr Informationen lassen sich mit dem jeweils geeigneten Verfahren aus den Daten gewinnen. Stehen Anwender vor der Wahl zwischen Daten, die dasselbe Konstrukt auf einem hohen und einem niedrigen Skalenniveau beschreiben, dann sollten die Daten mit dem höheren Messniveau in der Analyse vorgezogen werden.
Beispiel
Der Ausgang eines Fußballspiels kann als Sieg, Unentschieden oder Niederlage beschrieben werden, also z.B. auf Ordinalniveau. Der Ausgang eines Fußballspiels kann aber auch in Tordifferenzen gemessen werden, z.B. +2, 0, -1. Es liegt auf der Hand, dass die Mannschaft, die mehr Tore geschossen hat, auch den Sieg davongetragen hat. Allerdings sind Tordifferenzen auf Intervallniveau und erlauben damit mehr (ggf. auch inhaltlich andere) Information auszudrücken.
■ Sind die Daten noch nicht erhoben, gelten folgende Daumenregeln für das Erheben von Daten. Generell gilt: Idealerweise sollten die Daten auf einem möglichst hohen Skalenniveau erhoben werden. Anstelle von Sieg, Unentschieden oder Niederlage könnte z.B. der Ausgang eines Fußballspiels in Tordifferenzen gemessen werden.
[1] | Falls Kausalrelationen modelliert werden sollen, so sollten v.a. die abhängigen Variablen auf einem möglichst hohen Skalenniveau gemessen werden. |
[2] | Falls Kausalrelationen modelliert werden sollen und die abhängigen Variablen sind kategorial skaliert, so sollte sichergestellt sein, dass v.a. die relevanten Ausprägungen gemessen werden. |
[3] | Ein hohes Skalenniveau kann mittels Operationen des Daten-Managements (vgl. Schendera, 2005, 2004) technisch unkompliziert auf ein niedrigeres Skalenniveau vereinfacht werden (da es dieses ja enthält), allerdings immer begleitet von den Risiken des Informationsverlusts bzw. der Informationsverzerrung (vgl. Schendera, 2010, 14–15); umgekehrt bedarf es sehr überzeugender Argumente, ein niedrigeres Skalenniveau auf ein höheres Niveau anzuheben. |
■ Während und nach dem Messen sollte gewährleistet sein, dass die Daten möglichst zuverlässig, also fehlerfrei, erhoben wurden. Für die Diskussion der Genauigkeit von Messungen und ihrer Verallgemeinerbarkeit gibt es mehrere, eher technische Begriffe, die im Folgenden erläutert werden sollen.
► Beispiele
Eindeutigkeit: Das Messergebnis ist eindeutig. Wird z.B. der Ausgang eines Fußballspiels protokolliert, so sollte „Unentschieden“ tatsächlich dafür stehen, dass keine der beiden Mannschaften gewonnen hat (und z.B. nicht dafür, dass man nicht weiß, welche). „Unentschieden“ in einer zweiten, völlig anderen Bedeutung…
Genauigkeit: Das Messergebnis ist möglichst genau. Auch sollte z.B. der Ausgang eines Fußballspiels (Sieg, Unentschieden, Niederlage) möglichst genau gemessen werden, z.B. in Toren, z.B. +2, 0, -1. Was natürlich nicht passieren sollte, ist, dass man anstelle von +2 dann -2 Tore protokolliert (sog. Protokollfehler). Man sagt auch: Die Güte einer Messung ist möglichst hoch. Die Güte (Genauigkeit) kann dabei in Reliabilität und Validität differenziert werden.
Objektivität: Das Messergebnis ist objektiv. Der Ausgang eines Fußballspiels sollte z.B. unabhängig davon gemessen werden, ob man Fan des einen oder anderen Teams ist. Nur weil die eigene Mannschaft z.B. sich wacker, aber vielleicht vergeblich gegen einen glänzend aufgelegten Gegner schlägt (vielleicht sogar in einem ausverkauften Auswärtsspiel), bedeutet dies nicht, dass damit dem Gegner in der Messung der verdiente Sieg unterschlagen werden darf.
Reliabilität (Zuverlässigkeit, Wiederholbarkeit): Das Messinstrument kommt bei wiederholten Durchgängen immer zum selben Ergebnis. Eine Torkamera wird eine bestimmte Ballposition, auch wenn sie mehrfach vorkommt, immer genau daraufhin beurteilen können, ob der Ball vor, auf oder hinter der Linie war. Das Messinstrument und die Messung sind hoch zuverlässig.
Validität (Richtigkeit, Gültigkeit): Das Messinstrument misst das, was es messen soll. Torkameras sind z.B. eine Messmethode und wurden speziell dafür entwickelt, zu erfassen, ob ein Ball hinter der Linie war oder nicht. Torkameras sind damit als Messmethode in Bezug auf die Beurteilung, ob ein Ball vor, auf oder hinter der Linie war, hoch valide. Das Messinstrument und damit die Messung sind hoch valide. Was für Schiedsrichter aus dem oft schnellen und unübersichtlichen Spielgeschehen heraus nicht im selben Maße gelten kann. Was für manche allerdings wiederum den Charme des Spiels ausmacht… Torkameras sind allerdings nicht valide in Bezug auf die Beurteilung, ob dem Tor ein Regelverstoß voranging (Abseits, Foul usw.). Dafür wurden sie aber auch nicht entwickelt… Daran schließt sich nun eine Differenzierung in interne und externe Validität an, nämlich die Schlussfolgerungen anhand der erzielten Ergebnisse.
Die interne Validität drückt z.B. aus, ob die Messung für die eigentliche Fragestellung gültig ist. Der Ausgang eines Fußballspiels (Sieg, Unentschieden, Niederlage) sollte möglichst so gemessen werden, dass vom Ergebnis her auch auf das untersuchte Konstrukt zurückgeschlossen werden kann. Aus der Differenz geschossener Tore kann z.B. auf Sieg usw. geschlossen werden. Tore sind also eine gültige Messung dafür, wer dieses Spiel (nicht) gewonnen hat. Mit Konstrukten wie z.B. Passgenauigkeit, Zweikampfstärke oder Stadiongröße wäre dieser Schluss nicht richtig bzw. gültig. Die externe Validität drückt dagegen aus, ob die Messung an der Stichprobe auf die Grundgesamtheit verallgemeinert werden kann. Ein Ergebnis kann z.B. dann verallgemeinert werden, wenn die Stichprobe alle Merkmale einer repräsentativen Zufallsstichprobe aufweist, oder wenn die Stichprobe z.B. die Grundgesamtheit ist, z.B. bei einer Vollerhebung. Man stelle sich die Frage, ob und wann es Sinn macht, Messungen mit geringer interner Validität auf externe Validität zu prüfen.
Merkhilfe Was haben Objektivität, Reliabilität und Validität mit Torjägern zu tun? Meine Güte!
Werden sich u.a. Ali Daei, Pelé, Lionel Messi, Gerd Müller, Uwe Seeler oder Zlatan Ibrahimović wundern, dass sie in einem Buch zur deskriptiven Statistik erwähnt werden (vgl. Gisler, 2013)? Vermutlich nicht. Objektivität: Der Ball ist hinter der Linie. Torkamera, Schiedsrichter, Zuschauer, und auch der Gegner sind sich einig. Die Güte von Torschützen wird mittels zwei weiterer Kriterien beurteilt: Hohe Validität (Gültigkeit, Richtigkeit) bedeutet, dass ein Torjäger bei jedem Schuss ins Tor trifft, also bei jedem Versuch einen Treffer erzielt. Hohe Validität bedeutet allerdings nicht, dass ein Torjäger den Schuss dabei immer an dieselbe Stelle platzieren muss. Der Ball landet manchmal in der linken oberen Torecke, manchmal in der Mitte, knapp unter der Latte usw. Hauptsache, er ist drin… Würde ein Torjäger dagegen immer an dieselbe Stelle im Tor treffen, sozusagen als „Markenzeichen“, wäre dies gleichzeitig auch eine hohe Reliabilität (Zuverlässigkeit, Präzision). Hohe Validität und hohe Reliabilität machen zusammen die Güte eines Torjägers aus. Einen Spieler, der immer das Tor verfehlt, und das auch noch in alle Himmelsrichtungen, kann man alleine wegen seiner geringen Validität und Reliabilität kaum als Torjäger bezeichnen. Besser sieht es bei Spielern aus, die ziemlich reliabel auf den Punkt zielen, manchmal eben doch nicht genau genug („knapp vorbei“) und manchmal doch. Beim Elfmeter schadet eine etwas reduzierte Reliabilität nicht (der Torhüter muss ja wirklich nicht genau wissen, wohin sie zielen werden), beim Messen allerdings schon. Da will man das Ausmaß zufälliger Fehler so gering wie möglich halten. Hauptsache, es wird überwiegend ins Tor getroffen, der systematische Fehler ist also so gering wie möglich. Was haben wir gelernt? Hohe Güte: Hohe Reliabilität (=geringer zufälliger Fehler, =Präzision) + hohe Validität (=geringer systematischer Fehler, =Richtigkeit).
Für die Fußballfans unter uns
Hohe Reliabilität („immer auf den Punkt“) + hohe Validität („immer ins Tor“) = hohe Genauigkeit.
Objektivität: „eindeutig hinter der Linie“.
Mit diesen abschließenden Ausführungen zur Bedeutsamkeit des Messniveaus soll dazu übergeleitet werden, was man sonst noch alles vor dem Beschreiben von Daten wissen sollte.