Читать книгу Multivariate Analysemethoden - J. Winke - Страница 13
Das Ausmaß der fehlenden Werte analysieren
ОглавлениеZentrale Frage: Ist der Umfang oder die Anzahl der fehlende Werte gering genug, um die Ergebnisse nicht zu beeinflussen, auch wenn sie unsystematisch sind?
Faustregeln (Hair, Black, Babin, & Anderson, 2010, S. 47):
Der Umfang ist gering genug, wenn unter 10% der Fälle oder Variablen fehlende Werte sind und diese unsystematisch sind.
Die Anzahl der Fälle ohne fehlende Werte muss für eine weitere Analyse ausreichend sein, wenn keine Daten imputiert (siehe Imputation) werden.
Ermittlung des allgemeinen Ausmaßes der fehlenden Werte bei SPSS mithilfe von univariaten Statistiken.
Visualisierung und erste Prüfung eines Musters hinter fehlenden Werten durch graphische Verfahren.
Univariate Statistik
Univariate Statistiken bieten sich zur Analyse des Ausmaßes fehlender Werte sehr gut an. Sie zeigen für jede Variable sowohl die
• Anzahl vorhandener Werte
• Anzahl und Prozentsatz fehlender Werte im Datensatz
Zusätzlich dazu werden für metrische Variablen auch
• Mittelwert
• Standardabweichung und
• Anzahl der Extremwerte von SPSS angezeigt.
(Bankhofer, 1995) & (Hair, 2010, S. 47-48)
Diese Ergebnisse können dann zum Feststellen des Ausmaßes der fehlenden Werte genutzt werden (siehe Faustregel).
Vorgehen in SPSS:
Multiple Imputation: Muster analysieren
Alle interessierenden Variablen hinzufügen
Gegebenenfalls minimalen Prozentsatz auf 1 setzen, um alle fehlenden Werte anzeigen zu lassen.
Abbildung 5: Univariate Statistik (Vorgehen in SPSS)
Eigene Darstellung, Quelle: (IBM®, 2020)
Das Kreisdiagramm (Abbildung 6) gibt an,
wie viele Variablen fehlende Werte haben.
wie viele Fälle (also Probanden) fehlende Werte haben.
wie hoch der prozentuale Anteil an fehlenden Werten im gesamten Datensatz ist.
Abbildung 6: Kreisdiagramm über fehlende Werte
Eigene Darstellung, Quelle: (IBM®, 2020)
In der Variablenzusammenfassung (siehe Abbildung 7) sieht man:
Wie viele Probanden die Variable (nicht) beantwortet haben.
Wie hoch der Anteil an fehlenden Werten bei jeder Variablen ist.
Den Mittelwert und die Standardabweichung bei metrischen Variablen.
Abbildung 7: Variablenzusammenfassung (Output SPSS)
Eigene Darstellung, Quelle: (IBM®, 2020)
Graphische Verfahren
Beim graphischen Verfahren gibt SPSS drei verschiedene Diagramme aus. Dabei sind diese Verfahren sehr gut geeignet, um die Verteilung der fehlenden Werte zu visualisieren. Dadurch können eventuell vorhandene Muster bzw. eine Systematik erkannt werden, die eine Zufälligkeit in den Prozessen hinter den fehlenden Werten ausschließen würde. (Bankhofer, 1995) & (Hair, 2010, S. 47-48)
Dabei wird besonders Folgendes beachtet:
Wo befinden sich die fehlenden Werte?
Tendiert ein Paar von Variablen dazu, fehlende Werte in Einzelfällen nachzuweisen?
Sind extreme Datenwerte vorhanden?
Abbildung 8: Ein Muster fehlender Werte (SPSS Output)
Eigene Darstellung, Quelle: (IBM®, 2020)
In dem Muster fehlender Werte bekommt man einen ersten Überblick darüber, ob eine Systematik in den fehlenden Werten vorliegt. Jedes Muster entspricht einer Gruppe von Fällen mit dem gleichen Muster unvollständiger und vollständiger Daten. (Bankhofer, 1995) & (Hair, 2010, S. 47-48)
Anordnung:
Variablen von links nach rechts aufsteigend nach der Anzahl fehlender Werte
Muster von rechts nach links (vorhandene Werte zuerst, dann fehlende Werte)
Bei monotonen Daten sind alle fehlenden Zellen und nicht fehlenden Zellen fortlaufend. Ansonsten sind „Inseln“ im unteren rechten Teil und oberen linken Teil des Diagramms (Abbildung 8) zu sehen.
Abbildung 9: Muster fehlender Werte (SPSS Output)
Eigene Darstellung, Quelle: (IBM®, 2020)
In der Abbildung 9 handelt es sich um die Darstellung der Häufigkeiten der Muster. Beim Beispieldatensatz kann man erkennen, dass am häufigsten Muster Eins auftritt:
In ca. 55% der Fälle sind die Daten vollständig. Muster Eins bedeutet, dass alle Werte in der Analyse vorhanden sind. Bei keinem anderen Muster sollte so ein hoher Balken auftreten. Das würde ansonsten ebenfalls auf eine Systematik hinter den fehlenden Werten hindeuten.