Читать книгу Multivariate Analysemethoden - J. Winke - Страница 17
ОглавлениеDer Einsatz dieses Verfahrens sollte allerdings nach Möglichkeit vermieden werden, da es zu Verzerrungen in den Ergebnissen kommt. Die Extremwerte werden unterrepräsentiert und die Varianz wird zudem künstlich verringert, wodurch es zu falschen Ergebnissen in den anschließenden Analysen kommen kann. (Lüdtke & Trautwein, 2007) & (IBM Corp., 2017) & (Hair, 2010, S. 50-54)
Abbildung 19: Mittelwert-Imputation (Vor- und Nachteile)
Eigene Darstellung
b) Ersetzung durch Regression
Voraussetzungen für die Regressions-Imputation ist MCAR-Daten und metrisches Datenniveau. Der Vorteil dieses Imputationsverfahrens ist, dass die Beziehungen zwischen den Variablen beachtet und so die fehlenden Werte geschätzt werden. Ein Nachteil dieser Methode ist aber, dass durch die Berücksichtigung der Beziehungen beobachtete Zusammenhänge verstärkt dargestellt werden können. Außerdem kann die Varianz unterschätzt werden und die Ergebnisse der Analyse sind möglicherweise verzerrt. Aus diesen Gründen ist die Regressions-Imputation heute von der Multiplen Imputation abgelöst und wird als solche nicht mehr verwendet. (Lüdtke & Trautwein, 2007) & (IBM Corp., 2017) & (Hair, 2010, S. 50-54)
Abbildung 20: Regressions-Imputation (Vor- und Nachteile)
Eigene Darstellung
c) Hot und Cold Deck Verfahren
Bei der Hot Deck Imputation wird ein zufällig ausgesuchter beobachteter Wert an Stelle des fehlenden Wertes eingesetzt. Voraussetzung ist allerdings die Ähnlichkeit der Fälle, aus denen dann zufällig der einzusetzende Wert ausgewählt wird. Es handelt sich beim eingesetzten Wert um einen anderen Wert aus dem gleichen Datenset. Neben den vergleichbaren Daten sind auch MCAR-Daten notwendig. Ein Nachteil dieses Verfahrens ist die Unterschätzung der Standardfehler. Die Cold Deck Imputation läuft nach dem gleichen Prinzip wie die Hot Deck Imputation ab. Allerdings wird hier der Wert aus einem vergleichbaren Fall eines anderen externen Datensatzes eingesetzt. (Lüdtke & Trautwein, 2007) & (IBM Corp., 2017) & (Hair, 2010, S. 50-54)
Abbildung 21: Hot und Cold Deck Verfahren (Vor- und Nachteile)
Eigene Darstellung
d) Multiple Imputation
Die Multiple Imputation ist das aktuell beste Verfahren zum Ersetzen fehlender Werte in einem Datensatz. Ihr größter Vorteil ist, dass sie sowohl für MCAR als auch MAR-Daten geeignet ist und die bestmöglichen Ergebnisse liefert. Ebenfalls muss man auch das Datenniveau der Variablen nicht beachten, da diese Imputation sowohl bei metrischen als auch bei nominalen oder ordinalen Daten durchgeführt werden kann. Wichtig ist aber vor Durchführung, den Variablen das richtige Datenniveau zuzuweisen. (Lüdtke & Trautwein, 2007) & (IBM Corp., 2017) & (Hair, 2010, S. 50-54)
Im Falle von metrischem Niveau wird eine lineare Regression zur Ermittlung der fehlenden Werte genutzt. Ist das Datenniveau nicht metrisch, wird die logistische Regression angewandt.
Abbildung 22: Multiple Imputation
Eigene Darstellung, Quelle: vgl. (Osman, Abu-Mahfouz, & Page, 2018)
Es werden mehreren (ca. 3- 10) komplettierten Datensätzen erstellt, die parallel ausgewertet werden, wobei für einen Parameter verschiedene Schätzwerte resultieren.
Fehler der einfachen Imputation: Ergänzte Werte werden wie beobachtete Werte behandelt. (zusätzliche Fehlervarianzquelle beim Schätzen der Analysemodellparameter) Bei der Berechnung gültiger Standardfehler durch die Multiple Imputation kann diese Unsicherheit berücksichtigt werden. (Lüdtke & Trautwein, 2007) & (IBM Corp., 2017) & (Hair, 2010, S. 50-54)
Theoretischer Ablauf
Imputation
Als erstes kommt es zur Imputation. Hier wird die Anzahl vorher festgelegter Imputationen (voreingestellt in SPSS: fünf) durchgeführt, wobei mindestens drei und maximal zehn Imputationen durchgeführt werden.
Es entsteht ein aufgeteilter neuer Datensatz. Hier werden mit Hilfe verschiedener Regressionsmodelle für jeden fehlenden Wert neue Werte (voreingestellt: fünf) im Datensatz geschätzt. (Lüdtke & Trautwein, 2007) & (IBM Corp., 2017) & (Hair, 2010, S. 50-54)
Analyse
Aus der Impuation erhält man fünf verschiedene vollständige
Datensätze, die nun analysiert werden. Für die Variablen, die vorher noch fehlende Werte aufwiesen, werden die Mittelwerte, Standardabweichungen und die Extremwerte berechnet.
Dies geschieht sowohl für die Originaldaten, die imputierten Werte (separat) und anschließend noch einmal für die vollständigen Datensätze nach den Imputationen. Zu beachten ist aber die eingeschränkt vorhandene Vergleichbarkeit zwischen unterschiedlichen Imputationen für denselben Datensatz. Da es sich um Schätzungen der Parameter handelt, welche auch zufällig ablaufen, werden mit jeder Imputation neue Werte generiert, die so nicht noch einmal vorkommen werden. (Lüdtke & Trautwein, 2007) & (IBM Corp., 2017) & (Hair, 2010, S. 50-54)
Pooling/ Zusammenfassung
Das ist eine sehr komplizierte Phase, da SPSS die geschätzten Parameter statistisch sehr anspruchsvoll verrechnet, sodass sie einen neuen Datensatz ergeben, der für die weiteren Analysen verwendet werden kann. Das Pooling wird von SPSS auch nicht in allen Analysen unterstützt. Dies verdeutlicht, wie kompliziert die Phase des Poolings ist. (Lüdtke & Trautwein, 2007) & (IBM Corp., 2017) & (Hair, 2010, S. 50-54)
Vorgehen der Multiplen Imputation in SPSS
„Analysieren: Multiple Imputation: Fehlende Werte imputieren.“