Читать книгу Multivariate Analysemethoden - J. Winke - Страница 11
Klassifikation der fehlenden Werte
ОглавлениеUm die richtigen Methoden zur Behandlung fehlender Werte auswählen zu können, ist es von Bedeutung zu wissen, ob hinter den fehlenden Werten eine Systematik liegt. Die Klassifikation der fehlenden Werte erfolgt nach der Arbeit von Rubin in drei Arten (Rubin, 1976):
a) MCAR – Missing completely at random
Abbildung 2: Missing at completely random
Eigene Darstellung, Quelle: (IBM®, 2020)
Die Werte in den Daten fehlen vollständig zufällig. Das Auftreten der fehlenden Werte (sowohl X als auch Y) lassen sich weder auf Ausprägungen der betreffenden Variablen noch auf andere Variablen im Datensatz zurückzuführen. (IBM Corp., 2017, S. 2)
Beispiel: Bei der vorliegenden Studie wird das Haushaltseinkommen, das Alter und das Geschlecht erhoben. Bei dem Haushaltseinkommen treten fehlende Werte auf, die MCAR sind, wenn sie weder vom Einkommen selbst noch vom Alter oder Geschlecht abhängen. Man kann also keinen systematischen Ausfall im Datensatz feststellen. Hier sind die fehlenden Werte gleichmäßig (zufällig) verteilt. (Bankhofer, 1995, S. 14-16) & (Lüdtke & Trautwein, 2007)
b) MAR – Missing at random
Abbildung 3: Missing at random
Eigene Darstellung, Quelle: (IBM®, 2020)
Einige Daten fehlen „bedingt“ zufällig. Die fehlenden Werte von Y hängen von X ab, aber nicht von Y selbst. Bedeutet:
Das Auftreten von fehlenden Daten hängt von der Ausprägung einer anderen beobachteten Variablen ab, aber nicht von der Ausprägung der Variable selbst. Die Folge daraus ist eine eingeschränkte Generalisierbarkeit der Ergebnisse. (IBM Corp., 2017, S. 2)
Beispiel: In der Studie werden erneut Haushaltseinkommen, Alter und Geschlecht abgefragt. Bei den fehlenden Werten bei der Variable Einkommen fällt auf, dass die Werte häufiger fehlen, wenn die Variable „Alter“ hohe Werte aufweist. Kurz: Ältere Menschen haben häufiger als jüngere das Einkommen nicht angegeben. (Bankhofer, 1995, S. 14-21) & (Lüdtke & Trautwein, 2007)
c) MNAR – Missing not at random
Abbildung 4: Missing not at random
Eigene Darstellung, Quelle: (IBM®, 2020)
Die Daten fehlen nicht zufällig. Die fehlenden Werte in Y hängen von der Ausprägung in Y ab. Das Auftreten von fehlenden Werten hängt mit der Ausprägung der Variable selbst zusammen (und nicht mit Ausprägungen anderer Variablen im Datensatz, siehe MAR). Es gibt weder einen Test, der diese Verteilung testen kann, noch eine adäquate Methode zur Behandlung von MNAR-Daten. Man sollte MNAR nur ausschließen, wenn der Ausfallmechanismus bekannt ist (z.B. durch weitere empirische Studien). MNAR Daten sollten vermieden werden. (Lüdtke & Trautwein, 2007)
Beispiel: In der Studie mit den Erhebungen zu den Variablen Einkommen, Alter und Geschlecht treten fehlende Werte beim Einkommen auf. Wenn die fehlenden Werte MNAR sind, sind die Werte von der Höhe des Einkommens selbst abhängig. Kurz: Probanden mit einem höheren Einkommen geben dieses häufiger nicht an. Das Problem bei dieser Art fehlender Werte ist, dass sie nur dann sicher festgestellt werden können, wenn der Ausfallmechanismus bekannt ist. Somit muss der Forscher wissen, dass sich hinter den fehlenden Werten vermehrt hohe Werte im Haushaltseinkommen verbergen, was oftmals nicht so offensichtlich wie im Beispiel ist. (Bankhofer, 1995, S. 14-21) & (Lüdtke & Trautwein, 2007)