Читать книгу Testtheorie, Testkonstruktion, Testevaluation - Markus Pospeschill - Страница 9

На сайте Литреса книга снята с продажи.

1 Kriterien wissenschaftlicher Testgüte

Im Rahmen der Thematik zur Testtheorie, Testkonstruktion und Testevaluation spielen solche Kriterien eine entscheidende Rolle, die einem Test das Prädikat „wissenschaftliches Testverfahren“ zugestehen.

Im Folgenden werden zunächst wichtige Grundbegriffe erklärt.

Psychologischer Test

Ein psychologischer Test wird zunächst wie folgt definiert:

Ein psychologischer Test ist ein wissenschaftliches Routineinstrument zur Erhebung oder Messung distinkter psychologischer Merkmale auf der Basis von einzelnen Messwerten, Skalenwerten oder kategorialen Werten mit dem Ziel, die klassifikatorische (qualitative) Zugehörigkeit oder den (quantitativen) Ausprägungsgrad individueller Merkmale zu bestimmen.

wissenschaftlicher Test

Dabei unterscheidet sich ein wissenschaftlich fundierter, psychologischer Test von einem unwissenschaftlichen „Test“ vor allem darin, dass ein wissenschaftlicher Test hinsichtlich der Erfüllung sog. Testgütekriterien empirisch überprüft wurde. Diese können sich auf verschiedene Elemente bzw. Aspekte des Tests beziehen:

•Testobjekte sind meistens Einzelpersonen, können aber auch Personengruppen oder Organisationen sein, ggf. auch Kombinationen aus Personen und Situationen (beim situationsspezifischen Testen) oder Zeitbereiche (bei einer Veränderungsmessung).

•Als Testitems werden die einzelnen zu bearbeitenden Aufgaben eines Tests bezeichnet.

•Eine Testskala bezeichnet einen Satz von Items (also mehrere Items, die Bestandteil eines Tests sind), die spezifischen, mit der jeweiligen Testskala verbundenen Skalierungseigenschaften genügen. Ihre Zusammenfassung zu einer Testskala erfolgt anhand theoretischer (das gemeinsame Konstrukt betreffend) und statistischer (z. B. korrelativer Beziehungen zwischen den Items) Eigenschaften.

•Eine Testbatterie stellt eine Kombination aus Einzeltests dar, mit dem Ziel, die Genauigkeit und Güte der Messung zu erhöhen.

Testtheorie

Die Basis zur Konstruktion eines Tests wird dabei aus einer sog. Testtheorie abgeleitet.

Eine Testtheorie ist eine Theorie über verschiedene Arten von Tests, ihren Aufbau und ihre Konstruktionsprinzipien. Sie beschäftigt sich mit dem Zusammenhang von Testverhalten (ausgedrückt in empirischen Testwerten) und dem zu erfassenden Merkmal. Aus den Vorgaben der Testtheorien können Gütekriterien abgeleitet werden.

Testgütekriterien

Testgütekriterien dienen daher in erster Linie als Instrumente der Qualitätsbeurteilung und Wissenschaftlichkeit psychologischer Tests, indem sie als Bestandteil in Testmanualen (Handanweisungen, die Auskunft über den Einsatzzweck und zur Verwendung eines Tests geben) darüber informieren, welche Gütekriterien in welcher Weise erfüllt sind. Als besonders etabliert gelten dabei die folgenden drei Hauptgütekriterien (s. Kubinger, 2003a), die durch weitere Nebengütekriterien ergänzt werden (s. Lienert & Raatz, 1998):

•Hauptgütekriterien:

1. Objektivität

2. Reliabilität

3. Validität

•Nebengütekriterien:

1. Normierung (Eichung)

2. Skalierung

3. Ökonomie (Wirtschaftlichkeit)

4. Nützlichkeit (Utilität)

5. Zumutbarkeit

6. Unverfälschbarkeit

7. Fairness

8. Vergleichbarkeit

9. Transparenz

Abb. 1.1: Gütekriterien wissenschaftlicher Tests im Überblick

1.1 Objektivität

Die Objektivität eines Tests soll sicherstellen, dass die Ergebnisse eines Tests zwischen Personen vergleichbar sind.

Objektivität besteht für einen Test dann, wenn das Testergebnis unabhängig vom Untersuchungsleiter, vom Testauswerter und der Ergebnisinterpretation ist.

Hinsichtlich der verschiedenen Phasen beim Testverlauf werden diese drei Aspekte genauer bestimmt:

Durchführungsobjektivität

Die Durchführungsobjektivität soll sicherstellen, dass das Testergebnis eines Probanden nicht vom Testleiter abhängig ist. Die Testsituation wird dazu so standardisiert, dass möglichst nur die Testperson die einzige Quelle für Variationen in der Testsituation darstellt.

Standardisierung

Standardisierung bedeutet in diesem Zusammenhang, dass durch eine genaue Anweisung dem Testanwender mitgeteilt wird, unter welchen Vorgaben und Bedingungen der Test eingesetzt werden muss, um objektive Resultate zu erhalten. Diese Vorgaben können das Testmaterial, die Testinstruktion (einschließlich dadurch ausgelöster Nachfragen durch die Testperson), das Testleiterverhalten (welche Interaktionen mit der Testperson zulässig sind), die Testumgebung (räumliche Gegebenheiten, zusätzliche Materialien), die zeitliche Erstreckung des Tests (ggf. eine maximale Bearbeitungszeit) usw. umfassen.

Störvariablen

Idealerweise werden dabei Bedingungen geschaffen, in denen alle potenziellen Störvariablen kontrolliert (z. B. durch Testung zur gleichen Tageszeit und mit gleichen Umgebungsvariablen), konstant gehalten (z. B. durch Verwendung einer einheitlichen Testinstruktion und gleichbleibender Testvorgabe) oder eliminiert werden (z. B. durch eine computerbasierte Testdurchführung, die einen Testleiter überflüssig macht). Geschieht diese Kontrolle nicht, ist nicht auszuschließen, dass Störvariablen in der Testsituation in unkontrollierter Weise Einfluss auf die Testleistung nehmen und damit das Testergebnis ungültig und stark fehlerbehaftet werden lassen.

Durchführungsobjektivität kann z. B. durch eine genaue Beschreibung der Testsituation im Testmanual hergestellt werden:

„Die Bearbeitung des Fragebogens kann sowohl einzeln als auch gruppenweise erfolgen. Bei einer Vorgabe an Gruppen ist darauf zu achten, dass jeder Proband den Fragebogen unabhängig von anderen Teilnehmern ausfüllt. Folglich sollte sowohl jegliche Kommunikation zwischen den Probanden und Situationen, in denen potenziell ein Abschreiben möglich ist, verhindert werden. … Bei der Durchführung in Gruppen wird organisatorisch mindestens ein Testleiter je 50 Teilnehmer / -innen benötigt. Das räumliche Umfeld sollte eine ungestörte Bearbeitung gewährleisten.“

Auswertungsobjektivität

Bei der Auswertungsobjektivität ist entscheidend, dass das Antwortverhalten der Testperson genau quantifiziert wird und nicht etwa von der Person abhängig ist, welche die Testauswertung vornimmt. Insbesondere bei Aufgaben, deren Auswertung nicht anhand fester Auswertungsschablonen oder Auswertungsschlüssel festgelegt ist, müssen dazu ggf. genaue Auswertungsregeln aufgestellt werden.

Übereinstimmungsmaße

Dabei kann die Objektivität auch dadurch verbessert werden, dass die Auswertung von mehreren Personen vorgenommen wird. Über Konkordanzmaße (z. B. der Konkordanzkoeffizient Kendalls W oder das Interrater-Reliabilitätsmaß Scotts Pi) oder korrelative Maße (z. B. die Intraclasskorrelation) kann dann empirisch das Ausmaß der Übereinstimmung ermittelt werden.

Auswertungsobjektivität kann z. B. durch genaue Auswertungsregeln hergestellt werden: Für die Beurteilung von Kandidaten in einem Assessment Center sind die erwarteten Leistungen, die ein guter Kandidat in einer Rollensimulation zeigen soll, klar zu formulieren.

Interpretationsobjektivität

Schlussfolgerungen aus Testresultaten

Die Interpretationsobjektivität muss sicherstellen, dass Schlussfolgerungen aus den Testergebnissen unabhängig vom Testanwender sind. Demnach sollten bei gegebener Interpretationsobjektivität verschiedene Testanwender bei den gleichen Testresultaten zu gleichen Interpretationen kommen. In den Testmanualen liegen dazu Skalenbeschreibungen (z. B. über arithmetische Mittel und Standardabweichungen) vor, die als Normtabellen zum Vergleich einzelner Testpersonen mit adäquaten Bezugsgruppen genutzt werden können (s. Kap. 6.3).

Interpretationsobjektivität kann z. B. durch normierte Werte erreicht werden: So deutet die Schulnote „1“ in allen deutschen Bundesländern auf eine sehr gute Leistung, eine „5“ auf eine nicht ausreichende / mangelhafte Leistung hin. Allerdings sagt die Interpretationsobjektivität dabei nichts über die inhaltliche Güte aus. Sind Noten z. B. zwischen den Bundesländern nicht ausreichend standardisiert (ein Problem der Durchführungsobjektivität), dann ist eine „2“ in Bayern nicht unbedingt mit einer „2“ im Saarland zu vergleichen.

Zusammengefasst: Das Hauptgütekriterium Objektivität kann als erfüllt gelten, wenn ein psychologischer Test hinsichtlich seiner Handhabung, Auswertung und Interpretation so festgelegt ist, dass sein Einsatz unabhängig von umgebenden Faktoren (wie Ort, Zeit, Testleiter und Auswerter) vorgenommen werden kann und unterschiedliche Testauswerter bei den gleichen Personen immer zu gleichen Ergebnissen kommen.

1.2 Reliabilität

Mit der Reliabilität wird die Qualität eines Tests bezeichnet, die auf seiner Zuverlässigkeit beim Erheben von Merkmalen beruht.

Reliabilität ist ein Maß für die Präzision, Zuverlässigkeit und Genauigkeit, mit der ein Test ein Merkmal misst. Präzise ist eine Messung dann, wenn sie möglichst frei von Messfehlern erfolgt.

Messgenauigkeit

Die Erfassung der Reliabilität im Reliabilitätskoeffizienten r_tt drückt in den Extremen ein Testergebnis vollkommen ohne Messfehler aus (r_tt = 1,0), oder ein Testergebnis, das nur durch Messfehler zustande gekommen ist (r_tt = 0). Damit schwankt der Reliabilitätskoeffizient zwischen Null (d. h. die Wiederholung eines Tests an der gleichen Person führt unter gleichen Bedingungen und ohne Veränderung des Merkmals zu völlig unterschiedlichen Resultaten) und Eins (d. h. die Wiederholung eines Tests an der gleichen Person führt unter gleichen Bedingungen und ohne Veränderung des Merkmals zu identischen Resultaten). Anhand des Reliabilitätskoeffizienten wird ausschließlich der Grad der Genauigkeit einer Merkmalsmessung ausgedrückt, unabhängig davon, ob der Test dieses Merkmal auch zu messen beansprucht (denn dies ist ein Aspekt der Validität).

Ungenauigkeiten bei einer Messung können zu Fehlurteilen führen, bei denen erzielte Messwerte das eigentliche Merkmal über- oder unterschätzen. Unreliabel wird ein Maß u. a. dann, wenn sich von Messung zu Messung die Maßeinheiten oder die Abstände zwischen den Einheiten verändern.

formale Definition

Als grobe Faustformel gelten Reliabilitätskoeffizienten ab r_tt = 0,7 als akzeptabel, ab 0,8 bis 0,9 als gut. Eine formale Definition kennzeichnet die Reliabilität als Quotient von wahrer Varianz (der Merkmalsstreuung der „wahren“ Werte ohne den Messfehler) zur Gesamtvarianz (die Merkmalsstreuung der beobachteten Werte einschließlich des Messfehlers).

Reliabilitätsmaße werden mittels korrelativer Techniken bestimmt (s. Kap. 6.1). Dabei wird geprüft, ob Probanden in zwei Testungen gleiche Werte aufweisen. Dies kann zu zwei Zeitpunkten oder mit zwei Testformen geschehen (s. Abb. 1.2).

Abb. 1.2: Verfahren zur Reliabilitätsbestimmung unterschieden nach Anzahl der Testungen und Anzahl der Testformen

Test-Retest-Reliabilität

Testwiederholung

Zur Bestimmung der Test-Retest-Reliabilität (r_tt) wird derselbe Test wiederholt zu zwei Zeitpunkten präsentiert und die Testergebnisse korreliert. Die Korrelation der Testwiederholung liefert das Maß für die Reliabilität. Dabei wird unterstellt, dass das zu messende Merkmal konstant (also konstante wahre Werte und konstante Fehlervarianzen produziert) und auch das gewählte Zeitintervall zwischen den Testungen ohne Einfluss auf die Messung ist. Die Wahl des optimalen Retest-Intervalls muss bei instabileren Merkmalen kürzer und kann bei stabileren Merkmalen länger gewählt werden. Das Risiko von Merkmalsveränderungen und Erinnerungseffekten ist dabei stark abhängig von den Inhalten (s. Kap. 6.1.1).

Paralleltest-Reliabilität

Einsatz paralleler Tests

Sind Übungs- oder Erinnerungseffekte nicht auszuschließen, kann eine Paralleltest-Reliabilität (r_tt_‘) bestimmt werden. Benötigt werden dazu inhaltlich ähnliche Items („Itemzwillinge“) aus zwei Tests (A und B), deren beobachtete Testwerte zu gleichen Mittelwerten und Varianzen führen. Werden die Testwerte dieser zwei Parallelformen korreliert, resultiert die gewünschte Reliabilität. Die Erstellung paralleler Testformen wird zwar für die Reliabilitätsprüfung einerseits gerne als optimale Lösung betrachtet, ist allerdings andererseits mit großem Aufwand verbunden und daher häufig nicht praktikabel (s. Kap. 6.1.2).

Splithalf-Reliabilität

Testhalbierung

In vielen Fällen ist die Berechnung von Retest- bzw. Paralleltest-Reliabilität nicht durchführbar. Aus diesem Grund wurden Verfahren entwickelt, mit denen die Reliabilität auf der Basis von Testungen zu einem Zeitpunkt mit einer Testform möglich ist. Grundlegende Idee dabei ist, Teile eines Tests als parallele Testversionen aufzufassen und die Reliabilität als Zusammenhang der einzelnen Teile anzunehmen.

Durch Aufteilung eines Tests in zwei äquivalente Testhälften wird eine Splithalf-Reliabilität (r_ttα) berechnet. Sie entspricht der Korrelation der beiden Testhälften. Da kürzere Tests i. d. R. weniger reliabel sind, muss die zwischen den beiden Testhälften festgestellte Korrelation mit Hilfe der Spearman-Brown-Formel auf die ursprüngliche Skalenlänge aufgewertet werden (s. Kap. 4). Die gewünschten Testhälften entstehen zumeist nach der Odd-Even-Methode, bei der geradzahlige und ungeradzahlige Items die jeweilige Testhälfte bilden (s. Abb. 1.3). Andere Testhalbierungsmethoden verwenden die Zeit der Testbearbeitung, um zu zwei gleich langen Testabschnitten zu gelangen (Zeitpartitionierungsmethode), oder entnehmen dem Test jeweils ein Itempaar gleicher Schwierigkeit und Trennschärfe (Methode der Itemzwillinge), die dann per Zufall der einen oder anderen Testhälfte zugeordnet werden (s. Kap. 6.1.3).

Abb. 1.3: Beispiel für die Aufteilung eines Tests in zwei äquivalente Hälften

Konsistenzanalyse

Verallgemeinerung der Testhalbierung

Problematisch an der Berechnung von Splithalf-Reliabilitäten ist, dass die Testhälften verschieden gebildet werden können, was (besonders bei kleinen Stichproben) zu Unterschieden zwischen den Koeffizienten führt. Einen Ausweg aus dieser Problematik bietet die Konsistenzanalyse (interne Konsistenz) unter Berechnung von Cronbachs α („alpha“). Dieser Koeffizient entspricht der mittleren Reliabilität, bei Bildung aller möglichen Testhalbierungen. Die Konsistenzanalyse verallgemeinert die Halbierungsmethode, indem jedes Item eines Tests als eigenständiger Testteil aufgefasst wird. Je stärker das Ausmaß an Korrelationen zwischen den Testteilen, desto höher die interne Konsistenz. Sinnvoll können α-Werte im Bereich zwischen Null und Eins interpretiert werden. Dabei gilt als Untergrenze hinreichender Reliabilität ein Wert von 0,7, für eine gute Reliabilität ein Wert ab 0,9 (s. Kap. 6.1.4).

Zusammengefasst: Verschiedene Zugänge zur Beurteilung der Reliabilität eines Testverfahrens lassen sich unterscheiden:

•Testhalbierung / interne Konsistenz (Zusammenhänge zwischen Testteilen bzw. Items eines Tests);

•Test-Retest-Reliabilität (zeitliche Stabilität der Werte zwischen zwei Testungen);

•Paralleltest-Reliabilität (Zusammenhänge zwischen parallelisierten Testformen).

Keiner der besprochenen Reliabilitätskennwerte ist hierbei einem anderen generell vorzuziehen. Wichtig ist die gleichzeitige Betrachtung aller geschilderten Kennwerte, um einen möglichst umfassenden Überblick über die Reliabilität des Verfahrens zu gewinnen.

Inzwischen bieten modellbasierte Methoden der Reliabilitätsschätzung die Möglichkeit, mit weniger strengen Annahmen Reliabilitätskoeffizienten zu schätzen (Revelle & Zinbarg, 2009). Insbesondere Cronbachs α ist an die Erfüllung strenger Annahmen gekoppelt (wie die essentielle τ-Äquivalenz; vgl. Kap. 6.1.4), die häufig nicht erfüllt sind und sollte daher nur in angemessenen Fällen eingesetzt werden. Alternativ stehen sog. Omega-Koeffizienten (ω) zur Verfügung, die sich sowohl für ein- als auch mehrdimensionale Konstrukte als Punkt- und Intervallschätzer (vgl. Kap. 6.1.5) im Rahmen einer konfirmatorischen Faktorenanalyse (vgl. Kap. 7.2) schätzen lassen (s. Schermelleh-Engel & Gäde, 2020).

1.3 Validität

Mit der Validität soll festgestellt werden, ob zwischen dem was gemessen wird und dem was gemessen werden soll, tatsächlich Übereinstimmung besteht.

Validität bezieht sich auf die Frage, ob ein Test wirklich das Merkmal misst, was er messen soll bzw. zu messen vorgibt. Die Validität bezieht sich dabei auf die Gültigkeit verschiedener möglicher Interpretationen von Testergebnissen.

Beziehungen der Kriterien

Die Validität gilt für die Testpraxis gemeinhin als wichtigstes Testgütekriterium. Objektivität und Reliabilität gelten zwar als notwendige, aber nicht hinreichende Bedingungen für Validität. Das bedeutet, dass ein Test, der eine niedrige Objektivität und Reliabilität besitzt, auch keine hohe Validität erzielen kann, dass aber eine hohe Validität über das reine Vorhandensein von Objektivität und Reliabilität hinausgeht. Bei gegebener Validität berechtigen die Ergebnisse dazu, das in der Testsituation gezeigte Verhalten auf beobachtbares Verhalten außerhalb dieser Testsituation zu generalisieren. Ein solcher Zusammenhang könnte z. B. durch Korrelation der Testwerte mit einem relevanten Außenkriterium überprüft werden.

Zur Bestimmung der Validität eines Tests gibt es verschiedene Zugänge (s. Bryant, 2000). Moosbrugger und Kelava (2020) veranschaulichen dies am Beispiel eines Schulreife- bzw. Schuleignungstests:

•Inhaltsvalidität: Items, die Bestandteil des Tests sind, sollen inhaltlich das Konstrukt widerspiegeln, das der Test erfassen soll (z. B. Umgang mit Zahlen, Sprachverständnis);

•Konstruktvalidität: Das durch den Test gemessene Konstrukt „Schulreife“ soll mit ähnlichen Konstrukten (z. B. Intelligenz, Entwicklungsstand) zusammenhängen und unabhängig von inhaltsfremden Konstrukten (z. B. Temperament, Persönlichkeit) sein.

•Kriteriumsvalidität: Mit dem Test soll vorhergesagt werden, inwiefern Kinder eingeschult werden können. Kinder mit höheren Testwerten sollten sich daher besser in der Schule zurechtfinden als Kinder mit niedrigen Werten.

•Augenscheinvalidität: Auch für Laien (z. B. Eltern oder Lehrer) besitzen Schuleignungstests eine gewisse Glaubwürdigkeit, da aufgrund der inhaltlichen Gestaltung solcher Tests nahegelegt wird, dass damit wirklich Schuleignung gemessen wird.

Inhaltsvalidität

Repräsentativität von Items

Die Inhaltsvalidität kommt der oben angeführten Definition von Validität am nächsten, da der Inhalt bestimmt, was der Test misst bzw. messen soll (s. Murphy & Davidsdorfer, 2001). Mit der Inhaltsvalidität soll geklärt werden, inwieweit ein Test oder einzelne Items eines Tests eine repräsentative Stichprobe aus allen möglichen Testitems darstellen, die auf das zu messende Merkmal bezogen sind. Zentrale Fragen dabei sind: Erfassen alle enthaltenen Items das zu messende Konstrukt? Stellt die Auswahl der Items eine repräsentative Stichprobe dar? Eine Klärung erfolgt dabei selten aufgrund numerischer Kennwerte oder Statistiken, sondern eher anhand fachkompetenter Analysen durch kritische Beurteilungen auf Item- und Testebene (s. Michel & Conrad, 1982).

Dabei ist entscheidend, dass das Konstrukt (die spezifische Fähigkeit oder Eigenschaft) auf der Inhaltsebene eingehend beschrieben wird, dass die verwendeten Items den abzudeckenden Inhaltsbereichen zugeordnet sind und dass die Struktur des Tests mit der Struktur des Konstrukts übereinstimmt. Das zu erhebende Merkmal kann dabei operational (also im Wesentlichen durch die Testinhalte) oder theoretisch (also als theoretisches Konstrukt) definiert sein (s. Kap. 6.2.1).

Konstruktvalidität

konvergent vs. divergent

Auf der Basis der Konstruktvalidität wird bestimmt, ob mit dem im Test gezeigten Verhalten auf zugrunde liegende Fähigkeits- oder Persönlichkeitskonstrukte geschlossen werden kann. Die Konstruktvalidität erlaubt entsprechende Aussagen, wie angemessen ein Test das beanspruchte Konstrukt misst. Praktisch kann dies so aussehen, dass theoriegeleitete Zusammenhänge zwischen Konstrukten des vorliegenden Tests mit anderen (konstruktverwandten bzw. konstruktfremden) Verfahren auf Ähnlichkeiten bzw. Unähnlichkeiten verglichen werden: Wird dabei eine hohe Korrelation zwischen vorliegendem Test und Vergleichstest angestrebt, liegt eine konvergente Validität vor. Soll bei dem vorliegenden Test nachgewiesen werden, dass er von Merkmalen anderer Tests abgrenzbar ist, wird von divergenter bzw. diskriminanter Validität gesprochen – entsprechende Korrelationen sollten dann möglichst niedrig ausfallen (s. Kap. 6.2.3).

Analysemethoden

Spezifische Kennwerte zur Bestimmung der Konstruktvalidität existieren allerdings nicht. Neben Korrelationen werden die Zusammenhänge zwischen Tests oder generell die Merkmalsstruktur von Testitems über sog. Exploratorische Faktorenanalysen (EFA) untersucht (s. Kap. 7.1). Aus den resultierenden Faktorladungen kann so eine deskriptive Einordnung homogener Items anhand theoretisch definierter Merkmalsdimensionen vorgenommen werden. Die in Exploratorischen Faktorenanalysen gefundene Struktur kann anhand neuer Datensätze mit Konfirmatorischen Faktorenanalysen (CFA) überprüft werden, sofern das Testmodell auf der Konzeption latenter Variablen beruht (s. Kap. 7.2). Eine andere Herangehensweise ist der sog. Multitrait-Multimethod-Ansatz (s. Campbell & Fiske, 1959). Er untersucht über verschiedene Korrelationsmatrizen den Zusammenhang von Merkmalen und Entfernung von Methodeneffekten (s. Kap. 7.2.5).

Kriteriumsvalidität

praktische

Verwendung

Geht es um die praktische Anwendbarkeit eines Tests, um das Verhalten einer Person außerhalb der Testsituation anhand der produzierten Daten in der Testsituation vorherzusagen, wird von Kriteriumsvalidität gesprochen. Dazu wird die Korrelation der Testvariablen und der Kriteriumsvariablen bestimmt: Liegt ein zeitgleiches Außenkriterium vor, resultiert eine konkurrente (Übereinstimmungs-)Validität. Ist hingegen eine Prognose hinsichtlich einer zukünftigen Merkmalsausprägung intendiert, wird eine prognostische bzw. prädiktive (Vorhersage-)Validität angestrebt. Soll die Vorhersage eines praktisch relevanten externen Kriteriums verbessert werden, indem zusätzliche Items oder Skalen hinzugefügt werden, kann eine inkrementelle Validität (z. B. als Zuwachs erklärter Varianz, wie sie im Rahmen einer hierarchischen Regressionsanalyse ermittelt werden kann) bestimmt werden. Schließlich ist auch eine retrospektive Validität zu unterscheiden, bei der Zusammenhänge mit zuvor ermittelten Kriterien hergestellt werden (s. Kap. 6.2.2).

Augenscheinvalidität

Akzeptanz eines Tests

Die Augenscheinvalidität bezeichnet die offensichtliche Akzeptanz eines Tests durch Laien und sollte nicht mit der inhaltlichen Validität verwechselt werden. Dennoch besitzt sie hinsichtlich der Kommunizierbarkeit und Nachvollziehbarkeit der Ergebnisse eine nicht unerhebliche Relevanz. Wissenschaftlich betrachtet ist die Augenscheinvalidität allerdings nicht immer gewollt, da sie insbesondere in der Persönlichkeitsforschung bereits bei der Testbearbeitung Antworttendenzen verursachen kann.

abhängige Hauptgütekriterien

Die drei Hauptgütekriterien stehen in einem spezifischen Abhängigkeitsverhältnis (s. Abb. 1.4). Ein Test ohne Objektivität wird keine optimale Reliabilität erreichen können: Entstehen Fehler bei der Ermittlung oder Interpretation der Daten, beeinflusst dies die Messgenauigkeit. Ist die Reliabilität nicht gegeben, können keine gültigen Aussagen oder Vorhersagen getroffen werden, da der Test das Merkmal nicht genau messen kann: Ohne einen exakten Testwert lässt sich keine klare Beziehung zu einem Außenkriterium herstellen (s. Kap. 2.4).

Zusammengefasst: Die Validität eines Tests kann als perfekt gelten, wenn ein individueller Testwert eine Person eindeutig auf einer Merkmalsskala lokalisiert. In diesem Fall erlaubt ein Testergebnis einen unmittelbaren Rückschluss auf den Ausprägungsgrad des zu erfassenden Merkmals. Dabei können verschiedene Aspekte der Validität unterschieden werden:

•Inhaltsvalidität (die Testitems stellen das optimale Kriterium zur Erfassung des Merkmals dar);

•Konstruktvalidität (ein Test kann aufgrund theoretischer Erwägungen ein bestimmtes Konstrukt erfassen);

•Kriteriumsvalidität (das Ergebnis eines Tests korreliert mit unabhängig erhobenen Außenkriterien).

Abb. 1.4: Zusammenhänge zwischen den drei Hauptgütekriterien

1.4 Normierung / Testeichung

Normen als

Bezugssystem

Ziel der Normierung ist es, dem Testanwender ein Bezugssystem aktueller Vergleichswerte (Normtabellen) von solchen Personen bereitzustellen, die der getesteten Person anhand relevanter Merkmale möglichst ähnlich sind. In diesem Fall wird von den Daten einer Eich- oder Normierungsstichprobe gesprochen. Anhand der Normdaten kann eingeordnet und interpretiert werden, ob die Ergebnisse einer getesteten Person zur Norm gehörend (durchschnittlich), oberhalb der Norm (überdurchschnittlich) oder unterhalb der Norm (unterdurchschnittlich) zu beurteilen sind (s. Kap. 6.3).

Normgüte

Die Güte der Normen bestimmt die Güte der individualdiagnostischen Entscheidung mit. Wichtig ist, dass die Charakteristika der Testung eines Probanden denen der Testung der Normstichprobe möglichst gut entsprechen. Der Geltungsbereich einer Norm wird hierbei vor allem durch folgende Aspekte bestimmt:

•Die Repräsentativität legt fest, gegenüber welcher Stichprobe Aussagen getroffen werden können (z. B. gegenüber der Gesamtbevölkerung oder gegenüber einer spezifischen Personengruppe). Repräsentativität bezieht sich dabei immer auf eine bestimmte Zielpopulation bzw. darauf, dass eine Stichprobe bezüglich einer zuvor definierten Population (Grundgesamtheit) repräsentativ sein soll. Global repräsentativ wäre eine Stichprobe dann, wenn sie in zahlreichen Merkmalen mit der Population übereinstimmt (dies setzt die Ziehung einer echten Zufallsstichprobe entsprechenden Umfangs voraus). Spezifisch repräsentativ wäre eine Stichprobe hingegen, wenn sie nur in den Merkmalen mit der Population übereinstimmt, die mit den Testwerten des Tests in bestimmter Weise zusammenhängen (also z. B. Merkmale wie Geschlecht, Alter, Bildungsgrad und Beruf, um adäquate Normen bilden zu können). Dabei „schützt“ eine große Stichprobe keineswegs vor mangelnder Repräsentativität. Spezifische Arten der Stichprobenziehung durch geschichtete (stratifizierte) oder Quotenstichproben können stattdessen eine höhere Repräsentativität gewährleisten (s. Döring & Bortz, 2015). Trotzdem sind Mindestgrößen für Normstichproben ab ca. 300 Probanden vorauszusetzen, um eine angenäherte Repräsentativität zu gewährleisten.

•Konkretisiert wird die Repräsentativität durch die Normdifferenzierung, mit der die Spezifität und Passung der Referenzstichprobe festgestellt wird. Vor allem in Vergleichssituationen (z. B. in Wettbewerbssituationen) ist entscheidend, dass die Bezugsgruppe adäquat gewählt wird. Dabei ist auch zu berücksichtigen, dass keine mit dem Untersuchungsmerkmal korrelierten Hintergrundfaktoren die Stichprobe kontaminieren dürfen (z. B. ein unterschiedlicher Übungs- oder Vertrautheitsgrad mit dem Testmaterial).

•Beim Alter der Normen spielt die Aktualität der Eichstichprobe die entscheidende Rolle. So sollten die Angaben nach DIN 33430 nicht älter als acht Jahre sein (s. DIN, 2002; 2016). Dass Testnormen dabei keine zeitinvariante Größe darstellen, zeigt z. B. der sog. Flynn-Effekt (Flynn, 1999). Flynn konnte zeigen, dass der mittlere Intelligenzquotient (IQ) in den westlichen Industrienationen über die Jahre 1932 bis 1978 einen kontinuierlichen Anstieg (etwa 1 / 3 IQ-Punkt pro Jahr) zeigt. In jüngster Zeit ist dieser Effekt allerdings wieder leicht rückläufig.

•Schließlich sind die Testbedingungen entscheidend, unter denen die Probanden in der Normstichprobe getestet wurden (z. B. eine Bewerbungssituation oder ein klinisches Setting).

1.5 Skalierung

empirisches und numerisches Relativ

Mit dem Gütekriterium der Skalierung verbindet sich die Forderung, dass Merkmalsunterschiede zwischen Probanden („empirisches Relativ“) auch in entsprechenden Abständen zwischen Punktwerten des Tests („numerisches Relativ“) abgebildet sein müssen. Ist diese Forderung erfüllt, sollten sich Unterschiede in den Testwerten adäquat auch in empirischen Merkmalsrelationen abbilden lassen. Dazu bedarf es entsprechender Verrechnungsregeln, damit die resultierenden Testwerte die empirischen Merkmalsrelationen auch korrekt abbilden.

Skalenniveau

Von Messinstrumenten wird allgemein erwartet, dass sie mit dem entsprechenden Skalenniveau ausgestattet sind, d. h. mindestens Ordinal- (um stärkere von schwächeren Ausprägungen zu unterscheiden), besser aber Intervallskalenniveau besitzen (um die Größe einer Merkmalsdifferenz angeben zu können).

1.6 Ökonomie / Wirtschaftlichkeit

Ein Test gilt dann als ökonomisch, wenn sich der angestrebte diagnostische Erkenntnisgewinn unter akzeptabler Aufwendung finanzieller (die Testbeschaffung, Lizenzgebühren und Verbrauchsmaterialien betreffend) und zeitlicher (die Bearbeitungszeit, den Auswertungsaufwand und die Ergebnisrückmeldung betreffend) Ressourcen einstellt.

Kosten vs.

Erkenntnisgewinn

Mit der Ökonomie wird somit vorwiegend ein Aspekt der Wirtschaftlichkeit eines Tests angesprochen, Kosten möglichst zu minimieren, ohne dabei den Erkenntnisgewinn (und damit andere Gütekriterien) einzuschränken. Maßnahmen wie die computerbasierte Testung (anstatt mit Papier und Bleistift) oder das adaptive Testen (bei dem nicht alle Aufgaben eines Tests, sondern nur die mit dem größten Informationsgewinn vorgelegt werden) können sich allgemein förderlich auf die Ökonomie auswirken (s. Kap. 5.6).

1.7 Nützlichkeit / Utilität

praktischer Nutzen

Die Utilität befasst sich mit der praktischen Relevanz und Nützlichkeit eines Tests. Werden auf der Grundlage eines Tests Entscheidungen getroffen, so sollten daraus abgeleitete Maßnahmen mehr Nutzen als Schaden erwarten lassen. Neben der sinnvollen Verwendung sollte sich das Merkmal nicht mit anderen Tests erfassen lassen, die seitens der Gütekriterien mindestens genauso gut sind.

In der Eignungsdiagnostik sollte die Nützlichkeit eines verwendeten Auswahltests dadurch sichergestellt sein, dass möglichst viele geeignete Personen ausgewählt und möglichst viele ungeeignete Personen nicht ausgewählt werden.

1.8 Zumutbarkeit

Beanspruchung durch einen Test

Die Zumutbarkeit bezieht sich auf das Verhältnis „Testnutzen zu zeitlicher, psychischer und körperlicher Beanspruchung / Belastung der Testperson“, das im jeweiligen Kontext einer Testverwendung zu definieren ist. Dabei kann die Belastung einer zu testenden Person erheblich variieren (z. B. werden an einen zukünftigen Astronauten sicherlich andere und höhere Belastungsanforderungen gestellt als an einen Büroangestellten).

1.9 Unverfälschbarkeit

Verzerrung des

Antwortverhaltens

Verfälscht werden können Testergebnisse vor allem dann, wenn im Sinne antizipierter, sozialer Erwünschtheit geantwortet wird (s. Kap. 2.4.2). Dabei glaubt die Testperson, das Messprinzip im Sinne des erwarteten oder geforderten Resultates durchschaut zu haben, und versucht, entsprechend „günstig“ zu antworten. Dieses Verhalten kann durch eine hohe Augenscheinvalidität (leichter Nachvollziehbarkeit der Messintention) begünstigt werden.

Verschleiern der Messintention

Unverfälschbar wäre ein Test dann, wenn durch seine Konstruktionsweise verhindert wird, dass die Testperson durch gezieltes Testverhalten ihre Testwerte steuern oder verzerren kann. Objektive Persönlichkeitstests versuchen diesem Anspruch dadurch gerecht zu werden, dass sie die eigentliche Messintention (z. B. durch eine unklare Beschreibung der Testabsicht) verschleiern und indirekt auf das zu messende Merkmal schließen.

1.10 Testfairness

Bias von Tests

Die Fairness eines Tests ist insbesondere dann gegeben, wenn die resultierenden Testwerte zu keiner systematischen Benachteiligung oder Diskriminierung bestimmter Personen oder Personengruppen aufgrund ihrer Zugehörigkeit zu ethnischen (z. B. Migrations- oder sprachlicher Hintergrund), soziokulturellen (z. B. sozioökonomischer Status, Bildungsnähe vs. Bildungsferne) oder geschlechtsspezifischen (Frauen vs. Männer) Gruppen führen (s. Testkuratorium, 1986). Liegt eine systematische Unfairness vor, besitzen die Items einen sog. Itembias.

Die Diskussion zur Testfairness hat u. a. zur Entwicklung sog. Culture Fair Intelligence Tests geführt, die Intelligenz kultur- und sprachfrei messen sollen. Testfairness spielt vor allem dort eine entscheidende Rolle, wo Auswahlentscheidungen aufgrund des Testergebnisses getroffen werden. Hohe Ansprüche an Testfairness werden daher eher bei psychologischen Leistungstests (z. B. Schul-, Studien- oder Berufseignungstests) als bei Persönlichkeitstests gestellt.

Einheitliche Kriterien für die Verbesserung der Testfairness stehen derzeit aus. Prinzipiell ist es möglich, Itemergebnisse nachträglich zu korrigieren (z. B. mittels der Differential Item Functioning-Analyse) oder (möglichst theoriegeleitet) neue Items zu generieren, die weniger diskriminieren. Umweltunterschiede zwischen den Bewerbern lassen sich schließlich z. B. auch durch spezifische Trainingsprogramme ausgleichen.

1.11 Vergleichbarkeit

Für die Vergleichbarkeit eines Tests ist vor allem das Vorhandensein paralleler Testformen oder validitätsähnlicher Tests maßgebend. Liegt eine echte Parallelform zu einem Test vor, sollten bei einem Probanden vergleichbare Ergebnisse resultieren. Dies ermöglicht eine intraindividuelle Reliabilitätskontrolle.

validitätsähnliche Tests

Bei validitätsähnlichen Tests wird dasselbe oder ein ähnliches Konstrukt gemessen. Liegen Korrelationen zwischen zwei validitätsähnlichen Tests vor, können die Ergebnisse einer Testperson verglichen werden. Dies ermöglicht eine intraindividuelle Validitätskontrolle.

1.12 Transparenz

Verständlichkeit

Die Transparenz eines Tests bemisst sich zunächst an der Verständlichkeit der Instruktion, die alle Kandidaten gleichermaßen auf die Bewältigung des Tests vorbereiten sollte. Ggf. kann dies auch die Bearbeitung einzelner Übungsitems in einer Vortestphase einschließen, so können Probleme bei der Instruktion ausgeschlossen werden. Schließlich gehört zur Transparenz eines Tests auch, die Probanden nach Abschluss des Tests über Messintention und Ergebnis ausreichend aufzuklären bzw. zu informieren.

Abb. 1.5: Qualitätsanforderungen an einen psychologischen Test im Überblick

Testfragen

1. Was sind die zentralen Merkmale eines diagnostischen Tests?

2. Welche Haupt- und Nebengütekriterien werden testtheoretisch unterschieden?

3. Welche Arten von „Objektivität“ werden bei der Testgüte unterschieden?

4. Was bedeutet der Begriff „Reliabilität“ und wie wird er operationalisiert?

5. Worin liegen einschränkende Faktoren bei der Bestimmung einer Test-Retest- oder Paralleltest-Reliabilität?

6. Ab wann gelten Reliabilitätskoeffizienten als hinreichend?

7. Was bedeutet der Begriff „Validität“ und wie wird er operationalisiert?

8. Was bezeichnet man als „Augenscheinvalidität“?

9. Charakterisieren Sie die Beziehung zwischen den drei Hauptgütekriterien?

10. Beschreiben Sie, unter welchen Voraussetzungen Schulnoten vergeben werden müssen, damit sie die Haupt- und Nebengütekriterien erfüllen.

Testtheorie, Testkonstruktion, Testevaluation

Подняться наверх