Читать книгу Erstellung von Fragebogen - K. Wolfgang Kallus - Страница 18
2.2 Konzeptgeleitete Zusammenstellung von Subtests und Items
ОглавлениеItems sollten wo immer möglich theoriegeleitet anhand vorliegender Modelle, Konzepte oder Taxonomien erstellt werden. Dies ist im Bereich der Wissenschaft unerlässlich. Der Abgleich der Items und Subtests mit vorliegenden Modellen, Konzepten und Theorien kennzeichnet hochwertige Fragebogen auch bei den weiter unten beschriebenen Optionen zur Entwicklung des Itempools. Bei der theoriegeleiteten Formulierung von Items wird entweder ein Modell als Grundlage ausgewählt oder es werden mehrere verwandte Konzepte herangezogen. Zu den in der Theorie dargestellten Facetten werden Items gebildet, die möglichst repräsentativ die Facetten im Verhalten und Erleben von Personen abbilden können. Für jede Facette werden mindestens sechs bis acht Items für einen potenziellen Subtest formuliert. Die Formulierung von Items orientiert sich immer konkret an der Perspektive der Antwortenden. Items können auch dann theoretischen Konzepten folgen, wenn sie konkret formuliert sind. Theoretisch formulierte Items sind typische „Anfängerfehler“. Die Frage „Sind Sie bei Ihrer Arbeit primär erfolgsmotiviert?“ (ja/nein) sollte besser lauten „Lob spornt mich besonders an“ (ja/nein). Es hat sich besonders bewährt, die Merkmalsbereiche möglichst konkret auf der Verhaltens- und Erlebensebene oder durch Beschreibung konkreter Situationen oder Zustände aus dem Merkmalsbereich abzubilden.
Das theoriegeleitete Vorgehen bei der Zusammenstellung von Subtests/Items sei am Beispiel des Erholungs-Belastungs-Fragebogens (EBF; Kallus, 1995) kurz dargestellt. Der Beanspruchungsbereich wurde ausgehend von der Taxonomie für Stressoren bei Janke (1976) in die Bereiche „äußere Belastungen“, „Belastungen durch Deprivation primärer Bedürfnisse wie Schlaf “, „Leistungsüber/-unterforderungen“, „soziale Belastungen“ und „sonstige Belastungsfaktoren wie Konflikte und Ungewissheit“ gegliedert. Für jede Facette wurden anschließend mindestens acht Items formuliert. Zuvor war festgelegt, dass sich der aktuelle Beanspruchungszustand aus der Häufigkeit von Belastungen „in den letzten Tagen“ ergeben sollte. Als Annahme galt zudem, dass sich besonders intensive Stressereignisse in vielen Teilbereichen niederschlagen und sich intensive Belastungen daher auch in Häufigkeitsangaben relativ gut abbilden lassen. Ergänzend wurde die Annahme einbezogen, dass Belastungen dann besonders bedeutsam für den Beanspruchungszustand einer Person sind, wenn nur unzureichende Möglichkeiten zur Regeneration der Ressourcen vorliegen. Initial stand der Versuch, die Erholungsbereiche komplementär zu den Belastungsbereichen in Items abzubilden.
Während sich für den Beanspruchungsbereich die theoretisch abgeleiteten Belastungsdimensionen weitestgehend abbilden ließen, konnten aufgrund hoher Überlappung der Merkmalsbereiche nur einige korrespondierende Regenerationsbereiche abgebildet werden. Interessanterweise konnten, passend zu kognitiven Stressmodellen (z. B. Lazarus, 1966, 1991), überwiegend positiv bewertete Ereignisse und Zustände als „gute Items“ für Erholung in die Endform des Erholungs-Belastungs-Fragebogens übernommen werden.
Weitere Beispiele für eine theoriegeleitete Entwicklung von Itempools finden sich im Instrument zur Erfassung der Konflikteskalation am Arbeitsplatz (IKEAr; Kolodej, Voutsinas, Jiménez & Kallus, 2005), im EBF-Sport (Kellmann & Kallus, 2000, 2016), im Test zur Erfassung des Mobbingrisikos am Arbeitsplatz (TEMA; Kolodej, Essler & Kallus, 2010), in der Profilanalyse zur Arbeitszufriedenheit (PAZ; Jiménez, 2008) und auch in einer Vielzahl von Verfahren anderer Arbeitsgruppen, wie dem bereits erwähnten arbeitsanalytischen Fragebogen (ISTA; Semmer, Zapf & Dunckel, 1999), im Trierer Inventar zu chronischem Stress (TICS; Schulz, Schlotz & Becker, 2004) oder beim Verfahren zu Beanspruchungsmessung bei der Arbeit (BMS; Debitz, Plath & Richter, 2016). Bögel und Rosenstiel (1997) empfehlen auch für MitarbeiterInnenbefragungen ein stärker theoriegeleitetes Vorgehen.
Eine theoretische Konzeption zur „Messung“ der Facetten eines hypothetischen Konstrukts oder eines hinreichend klar operationalisierten Merkmals stellt die Generalisierbarkeitstheorie (Cronbach, Gleser, Nanda & Rajaratnam, 1972) dar. Danach sollten Items in einem Fragebogen möglichst in „paralleler“ Form Informationen zur Ausprägung einer Facette des Merkmals erfassen. Mehrere dieser Items lassen sich dann zusammenfassen und spiegeln Unterschiede zwischen Personen in der Facette wider. Die Generalisierbarkeitstheorie betont auch die Bedeutung von Situationen, in denen sich das relevante Merkmal widerspiegeln sollte. Situationen sollten bei der Itemzusammenstellung nicht unbeachtet bleiben. Wenn möglich, sollte die jeweils relevante Situation für die Formulierung der Frage berücksichtigt werden. Die Berücksichtigung von Situationen stößt an Grenzen, weil gerade Situationen oft spezifisch oder typisch für bestimmte Bevölkerungs- oder Berufsgruppen sind. Dadurch ergibt sich der unerwünschte Fall, dass der Einsatzbereich eines Fragebogens dann auf spezifische Gruppen einzugrenzen ist oder dass hypothetische Situationen einzubeziehen sind. Hypothetische Situationen erhöhen die Komplexität von Fragen und müssen sehr geschickt formuliert werden, damit alle Antwortenden eine angemessene Vorstellung entwickeln können. Aufgrund dieser Schwierigkeiten reduzieren hypothetische Situationen oft die Qualität des Fragebogens (vgl. Faulbaum, Prüfer & Rexroth, 2009; Porst, 2009). Reaktionen auf hypothetische Situationen lassen sich allerdings nicht ohne Weiteres mit realen Verhaltensweisen und solchen in realen Situationen „mischen“.
Wichtig ist die Generalisierbarkeitstheorie für die Entwicklung von Fragebogen insoweit, als ein Item als Beispiel für eines von vielen möglichen Items betrachtet wird und als solches eine Stichprobe aus dem zu messenden Merkmal darstellt. Daher kann bei einer Prüfung des eigenen Itempools die aus der Generalisierbarkeitstheorie ableitbare Frage „Ist dieses Item typisch für das zu messende Merkmal?“ eine wesentliche Hilfe darstellen. Bei der Itementwicklung sollten nach der Generalisierbarkeitstheorie die TestentwicklerInnen für jeden Subtest ein Bild der möglichen Items vor Augen haben und aus den „möglichen“ Items einige „günstige“, am besten „repräsentative“ Items auswählen. Dabei ist eine ähnliche Varianz für unterschiedliche Facetten (Subtests) anzustreben, wenn die Items (wie im Regelfall) zu einem ungewichteten Mittelwert (oder einer ungewichteten Summe) zusammengefasst werden sollen.
Wenn möglich, sollte zudem ein Pretest an einer größeren Stichprobe durchgeführt werden. Dieser Pretest erlaubt (n ≥ 50) eine erste Einschätzung der psychometrischen Eigenschaften und eine Identifikation von „Ausreißeritems“. Ausreißeritems entstehen durch unerwartete Varianzeinschränkung und z. B. durch missverständliche (mehrdeutige) Formulierung der Iteminhalte, die nicht von der gesamten Stichprobe als Merkmal der zu messenden Facette verstanden werden. Beispiel: Die Selbstbeschreibung mit der Ausprägung von „gar nicht“ bis „sehr stark“ zu dem Zustand „dösig“ wird in Deutschland oberhalb der Main-Linie im Sinne eines Desaktivierungszustandes verstanden. Südlich der Main-Linie ist das Item z. T. „unverständlich“.
Pilotstudien erlauben Schätzungen zur Reliabilität und damit die Schätzung einer sinnvollen Itemzahl für jeden Subtest bzw. jede Merkmalsfacette. Inhaltlich inhomogene Facetten sollten durch mehr Items abgebildet werden, um eine hinreichende „gemeinsame“ Varianz zu erhalten.
Zentral für die Testentwicklung ist zudem, dass Items als Frage-Antwort-Einheiten auch in Bezug auf ihre sprachlich-grammatikalische Struktur, das Rating-Format und die Wortwahl als Stichprobe aus einem Pool möglicher ähnlicher Items gedacht werden. Items mit ähnlichem Inhalt, aber geändertem Antwortformat oder geänderter grammatikalischer Struktur gehören nicht zwingend in dieselbe Gruppe.
Ein wichtiges Beispiel betrifft die mit Negationen formulierten Items. Sprachliche Negationen stellen keine „einfache“ logische Umkehrung dar und sind daher nicht geeignet, Antworttendenzen wie die Tendenz zur Zustimmung abzufangen. Bei einfachen Aussagen wie „Ich mag Skifahren“ („gar nicht“ … „sehr stark“) und „Ich mag Skifahren nicht“ („gar nicht“ … „sehr stark“) wird die Problematik der Negation bereits deutlich. Der Satz „Ich mag Skifahren nicht“ mit der Antwort „gar nicht“ stellt keine angemessene Reformulierung zu „Ich mag Skifahren sehr“ dar. Die Diskussionen über Arbeitszufriedenheit und -unzufriedenheit als zwei relativ unabhängige Dimensionen (Herzberg, 1966) zeigen auf, dass Zufriedenheit und die sprachliche Negation Unzufriedenheit psychologisch kein bipolares Konstrukt darstellen. Interessanterweise zeigen Analysen von Fragebogen in linearen Strukturmodellen immer wieder, dass positiv und negativ formulierte Items dazu tendieren, eigene Faktoren zu bilden (Eid & Schmidt, 2014). Ein empirisches Beispiel dazu liefert die aktuelle Diskussion zur Frage „Engagement als Gegenpol von Burnout“ (Maslach & Leiter, 2008). Mit den methodischen Problemen bei der Messung von bipolaren Merkmalen haben sich z. B. Marsh (1996) und Dunbar, Ford, Hunt und Der (2000) auseinandergesetzt. Auch hier ergibt sich für die negativ formulierten Items ein eigener Faktor. Insbesondere Häufigkeitsskalen tendieren dazu, „scheinbare“ Bipolaritäten aufzulösen. Beanspruchung und Erholung können innerhalb eines Tages „gemeinsam“ variieren. Bestimmte Sportaktivitäten können sogar gleichzeitig (körperlich) hoch beanspruchend und psychisch-emotional extrem erholsam sein.