Читать книгу Multivariate Analysemethoden - J. Winke - Страница 15
Tests zur Analyse der Zufälligkeit
ОглавлениеDieser Schritt bezieht sich auf die Klassifikation fehlender Werte nach Rubin (1976). Zur Erinnerung: Hier gibt es drei verschiedene Arten and fehlenden Daten MCAR (missing completely at random), MAR (missing at random) und MNAR (missing not at random). Die Art der fehlenden Werte kann mit Hilfe von SPSS auf drei verschiedene Weisen festgestellt werden, wobei immer nur auf MCAR-Daten getestet werden kann. MNAR können nur eindeutig als solche nachgewiesen werden, wenn der Ausfallmechanismus bekannt ist.
In SPSS:
Analysieren: Analyse fehlender Werte
Variablen zuordnen (quantitativ = metrisch, kategorial = nominal und ordinal)
Klicken Sie auf Deskriptive Statistik.
Haken bei Univariate Statistiken, T-Test für Gruppen, die durch Indikatorvariablen gebildet werden (und Wahrscheinlichkeiten in Tabelle einschließen) und Kreuztabellen kategorialer und Indikatorvariablen setzen.
Haken bei EM setzen. (siehe Imputation)
Abbildung 10: Test der fehlenden Werte (Vorgehen in SPSS)
Eigene Darstellung, Quelle: (IBM®, 2020)
T-Test bei unterschiedlicher Varianz
T-Tests mit unterschiedlichen Varianzen werden mit den metrischen Variablen gerechnet. Das geschieht mit Hilfe von Indikatorvariablen. Ist bei einer Variablen ein Wert vorhanden, wird er durch eine 1 ersetzt. Fehlt der Wert dagegen wird eine 0 eingetragen. Hierbei möchte man möglichst geringe Unterschiede in den Mittelwerten der entstehen Gruppen erzielen, damit man von einer Zufälligkeit in den Prozessen der fehlenden Werte ausgehen kann. (Bankhofer, 1995, S. 72-77)
Beispiel: Verändert sich der Mittelwert von Alter, wenn bei Einkommen fehlende Werte auftreten im Vergleich zu vollständigen Werten beim Einkommen? Durch die große Anzahl von T-Tests kann es dazu kommen, dass einige Tests durch den bloßen Zufall signifikant werden (kumulierendes Alpha). (Bankhofer, 1995, S. 72-77)
Darum sollte man bei der Auswertung beachten, dass es durchaus Signifikanzen geben darf, diese aber nur an wenigen Stellen und gut verteilt auftreten sollten. Ansonsten kann eine Systematik hinter den Daten vermutet werden.
H0: Werte fehlen komplett zufällig (MCAR)
H1: Werte fehlen nicht komplett zufällig (MAR)
Bei p < .05 → H1 wird also angenommen: Mittelwerte unterscheiden sich signifikant und MCAR liegt nicht vor (man nimmt MAR an). Weitere Überprüfung: MCAR- Test nach Little (siehe Tests zur Analyse der Zufälligkeit). (Bankhofer, 1995, S. 72-77)
Abbildung 11: T- Tests bei unterschiedlicher Varianz
Eigene Darstellung, Quelle: (IBM®, 2020)
T- Tests bei unterschiedlicher Varianz geben die Mittelwertsunterschiede zwischen einzelnen Variablen in Abhängigkeit von dem Vorhandensein des Werts an. Ziel: Feststellen, ob Fehlwerte auf einer Variablen die Mittelwerte einer anderen Variablen beeinflussen. Das würde bedeuten, dass die Daten möglicherweise nicht zufällig fehlen. (IBM Corp., 2017, S. 5)
In der Abbildung 11 stellt man fest, dass das Einkommen scheinbar mehrere metrische Variablen beeinflusst, da z.B. der Mittelwert vom Alter erheblich schwankt, je nachdem ob der Wert vom Einkommen fehlt oder nicht. Die p-Werte zeigen (siehe Markierung), dass diese Mittelwertsunterschiede hoch signifikant sind. Das gibt einen Hinweis darauf, dass die Daten möglicherweise nicht vollständig zufällig fehlen.
Kreuztabellen
Die Kreuztabellen werden bei allen Variablen angewandt, die kein metrisches Datenniveau aufweisen. Auch hier werden – wie bei den T-Tests beschrieben – Indikatorvariablen gebildet. Bei der Auswertung der Kreuztabellen gilt, dass die fehlenden Werte möglichst gleich verteilt über die Tabellen hinweg auftreten sollten. Dann kann von einer Zufälligkeit hinter den fehlenden Werten ausgegangen werden. Sollte das nicht der Fall sein, kann es ein Hinweis auf MAR-Daten oder gar MNAR-Daten sein. (IBM Corp., 2017, S. 5)
Abbildung 12: Kreuztabelle 1 (SPSS Output)
Eigene Darstellung, Quelle: (IBM®, 2020)
Beispiel: Es sind deutliche Unterschiede bezüglich der Angabe des Einkommens in Abhängigkeit vom Ruhestand erkennbar. 53,7% der Probanden, die im Ruhestand sind, haben das Einkommen nicht angeben, wohingegen nur 16,3% der Beschäftigten fehlende Werte aufweisen.
Abbildung 13: Kreuztabelle 2 (SPSS Output)
Eigene Darstellung, Quelle: (IBM®, 2020)
Beispiel: Es sind deutliche Unterschiede zwischen den Geschlechtern bezüglich der Angabe der Jahre, die man an der Adresse verbracht hat, zu erkennen. 21,4% der Männer haben diese Angabe nicht gemacht, aber nur 8,1% der Frauen verweigerten eine Antwort. Beide Beispiele geben einen Hinweis darauf, dass die fehlende Werte nicht zufällig verteilt sind.
Betrachtung von Mustern
Es gibt drei verschiedene Arten, die Muster anzeigen zu lassen:
Fälle in Tabellen: Die Muster fehlender Daten in den Analysevariablen werden in Tabellenform dargestellt, wobei für jedes Muster auch die Häufigkeiten angegeben werden. Mit dem Muster der fehlenden Werte mit sortierten Variablen kann man angeben, ob Häufigkeiten (Anzahl) und Variablen nach der Ähnlichkeit der Muster sortiert werden sollen. (IBM Corp., 2017, S. 3-4)
Fälle mit fehlenden Werten: Für die einzelnen Analysevariablen werden jeweils die einzelnen Fälle mit einem fehlenden Wert oder einem Extremwert tabellarisch dargestellt. Mit Variablen sortieren nach dem Muster fehlender Werte kann man angeben, ob Häufigkeiten (Anzahl) und Variablen nach der Ähnlichkeit der Muster sortiert werden sollen. (IBM Corp., 2017, S. 3-4)
Alle Fälle: Die einzelnen Fälle werden tabellarisch dargestellt und fehlende Werte und Extremwerte werden für jede Variable angegeben. Die Fälle werden in der Reihenfolge aufgeführt, in der sie in der Datendatei auftreten, sofern unter „Sortieren nach:“ keine Variablen angegeben wurden. (IBM Corp., 2017, S. 3-4)
Vorgehen in SPSS: Analysieren: Analyse fehlender Werte. Auf Muster klicken. Je nach Wunsch Hacken bei Anzeige (siehe oben) setzen. Zusätzliche Informationen angeben lassen für: Einfügen von Variablen, für die man zusätzliche Information wünscht. Sinnvollerweise solche Variablen, bei denen man schon in der vorherigen Analysen Auffälligkeiten festgestellt hat.
Abbildung 14: Betrachtung Muster (Vorgehen in SPSS)
Eigene Darstellung, Quelle: (IBM®, 2020)
Abbildung 15: Muster in Tabellen (Output in SPSS)
Eigene Darstellung, Quelle: (IBM®, 2020)
„Das Muster in Tabellen“ zeigt:
Welche Variablen in mehr als 1% der Fälle zusammen fehlen.
Wie fehlende Werte bei den angegebenen Variablen verteilt sind.
Wie viele gültige Fälle man hat, wenn bestimmte Variablen rausgenommen werden würden.
MCAR-Test nach Little
Beim MCAR-Test nach Little werden die Beobachtungen mit den Erwartungen für die Werte verglichen. Außerdem wird untersucht, ob das Fehlen der Werte zufällig entstanden ist. Der MCAR-Test unterscheidet jedoch lediglich zwischen MCAR und MAR. Die MNAR-Daten können sowohl bei Ablehnung als auch bei Beibehaltung der Nullhypothese vorhanden sein. Darum helfen hier die T-Tests und Kreuztabellen, indem sie eine mögliche Systematik hinter den Werten erkennen lassen, um den Ausfallmechanismus zu erkennen. (Bankhofer, 1995, S. 82) & (Lüdtke & Trautwein, 2007)
Beim MCAR-Test nach Little lautet die Nullhypothese:
Die Daten sind MCAR.
Dementsprechend heißt die Alternativhypothese:
Die Daten sind MAR.
In diesem Fall ist ähnlich zu anderen Tests (z.B. KSA) die Forschungshypothese die Nullhypothese. Man kann dann von MCAR ausgehen, wenn der MCAR-Test nicht signifikant wird. Dieser Test wird außerdem auch als eine Alternative zu der großen Anzahl an T-Tests gesehen, da sich hierbei keine Problematik des kumulierenden Alphas ergibt. Der MCAR-Test ist bei SPSS leider nur unter dem Reiter EM zu finden und wird auch hier nur unter den übrigen Tabellen angezeigt.
(IBM Corp., 2017)
In SPSS: Hacken bei EM setzen. (siehe Abbildung 14)
Abbildung 16: MCAR-Test nach Little
Eigene Darstellung, Quelle: (IBM®, 2020)
Beispiel: Der Test wird signifikant (p < .001), womit eine Verteilung der Daten nach MAR, wie bereits durch die Tests und Muster vermutet, bestätigt wird. Allerdings ist auch dieser Test nur als Hinweis und nicht als Beweis zu deuten. Man kann aber davon ausgehen, dass die Daten nicht komplett zufällig fehlen.
Zusammenfassend lässt sich sagen, dass all diese Tests auf eine mögliche Zufälligkeit, die den fehlenden Werten unterliegt, hinweisen, jedoch keine Festlegungen sind. Der exakte Grad der Zufälligkeit kann nur dann bestimmt werden, wenn der Ausfallmechanismus bekannt ist. Dies gilt insbesondere für MNAR-Daten, für die es keinen statistischen Test gibt.
(Bankhofer, 1995) & (Lüdtke & Trautwein, 2007)