Читать книгу Testen und Bewerten fremdsprachlicher Kompetenzen - Barbara Hinger - Страница 13

На сайте Литреса книга снята с продажи.

4.1.3 ValiditätValidität

Das Testgütekriterium Validität und die Definition des KonstruktsKonstruktInhaltsvalidität: Tests enthalten eine repräsentative Auswahl von Aufgaben., das getestet werden soll, stehen in einer engen Wechselwirkung zueinander. Grotjahn (2006, 223) definiert Validität folgendermaßen: „Die Validität bezieht sich darauf, inwieweit ein Test das erfasst, was er erfassen soll, und inwieweit er zu fairen Entscheidungen führt“. „Das, was er erfassen soll“ verweist auf den TestinhaltKonstruktvalidität: Ein Test misst ein zugrunde liegendes theoretisches Konzept (Modell) von Sprachfähigkeit (language ability).. Klassen-/Schularbeiten müssen inhaltsvalideInhaltsvalidität sein, d.h. sie überprüfen den Sprachstand und somit eine aussagekräftige Auswahl dessen, was an Sprachverwendung und Sprachkompetenz gelehrt bzw. gelernt wurde. Dazu ist es notwendig, im Einklang mit dem Lehrplan zu sein (Quetz 2008), um der curricularen Validität zu entsprechen. Die Klassen-/Schularbeit muss zudem in ein KonstruktKonstruktvalidität, d.h. in ein theoretisches Konzept eingebettet sein; falls der GeR als Referenzquelle für die Erstellung von Tests herangezogen wird, muss die Klassen-/Schularbeit mit dessen Ansatz der Handlungsorientiertheit und seinem kommunikativen Kompetenzmodell kompatibel sein (vgl. Europarat 2001, 2.1, 2.1.2 und Kapitel 2 dieses Bands). Mit anderen Worten: Überprüft die Klassen-/Schularbeit tatsächlich eine repräsentative Stichprobe der sprachlichen Aktivitäten, die sie zu überprüfen vorgibt? Spiegeln die Interpretationen, die auf Basis der Ergebnisse der Klassen-/Schularbeit im Anschluss gemacht werden, das ihr zugrunde liegende Konstrukt wider und lassen diese Ergebnisse Verallgemeinerungen bzw. Rückschlüsse auf real life results zu (vgl. Green 2014, 75)? Wir können es noch anders formulieren: Was bedeutet die Note „Genügend“ im dritten Lernjahr des Wahlpflichtfachs Russisch auf A2-Niveau an einer Allgemeinbildenden höheren Schule (AHS)? Oder die Note „Gut“ im Leistungskursfach Russisch in der gymnasialen Oberstufe einer Gesamtschule? Wenn eine Klassen-/Schularbeit eine Antwort auf diese Frage geben kann, dann hat sie ihren Zweck erfüllt. Damit sie diesen erfüllt, muss sie adäquat gestaltet werden.

Klassen-/Schularbeiten orientieren sich als Leistungstests am Sprachstand der SchülerInnen und daran, ob diese gewisse Unterrichtsziele (des Konstrukts) erreicht haben – sie überprüfen also, „was unterrichtet worden ist“ (Europarat 2001, 9.3.1); aufgrund der am GeR ausgerichteten Lehrpläne ist der Unterricht kompetenzorientiert zu gestalten und Klassen-/ Schularbeiten müssen Bezug auf Kriterien nehmenkriterienorientierte Bewertung, die durch die in einem bestimmten Lernjahr zu erreichende Kompetenzniveaustufe vorgegeben sind1. Laut GeR (Europarat 2001, 9.3, 179) erfordert Kriteriumsorientierung

die Darstellung eines Kontinuums der Sprachkompetenz (vertikal – die Kompetenzniveaustufen von A1–C2) und eines Spektrums relevanter Lebensbereiche (horizontal – die Domänen privater, öffentlicher, beruflicher und bildungsinstitutioneller Bereich), sodass die individuellen Ergebnisse in einem Test mit Bezug auf den gesamten Kriterienbereich situiert werden können.

Das erfordert sowohl die Festlegung relevanter Domänen, die mit der Klassen-/Schularbeit abgedeckt werden sollen, als auch die Festsetzung von Trennwerten oder cut scores (s. Kapitel 5.5 und 7.3), die nötig sind, um den angestrebten Leistungsstand bzw. die entsprechende Niveaustufe zu erreichen. Klassen- und Schularbeiten müssen also die beiden Testgütekriterien InhaltsInhaltsvalidität- und KonstruktvaliditätKonstruktvalidität beachten. Das kann aber nur der Fall sein, wenn über das Schuljahr hinweg das Konstrukt repräsentativ durch die Inhalte der Klassen-/Schularbeiten abgebildet ist. Die KonstruktvaliditätUnterrepräsentation des Konstrukts: Unvollständige oder unzureichende Abbildung des Konstrukts und seiner Teilaspekte in den Testaufgaben einer Klassen-/Schularbeit ist gefährdet, wenn ein Test nur sehr eingeschränkte Teilaspekte des Konstrukts überprüft und das Konstrukt somit im Test unterrepräsentiertKonstruktunterrepräsentation ist, oder wenn Aspekte in die Bewertung einfließen, die eigentlich nicht Teil des beabsichtigten Konstrukts sind und daher zu einer konstrukt-irrelevanten Varianzkonstrukt-irrelevante VarianzKonstrukt-irrelevante Varianz: Einfluss von Faktoren und Fähigkeiten auf das Testergebnis, die nicht Teil des Testkonstrukts sind in den Ergebnissen führen.

Die Definition, ein Test sei valide und somit „qualitativ wertvoll“, wenn er einfach nur das testet, was er vorgibt zu testen, ist inzwischen in den Augen der meisten TestforscherInnen zu eng gefasst2. Obwohl dieses frühe Verständnis nach wie vor zentraler Bestandteil des Validitätsbegriffs ist, sehen viele KonstruktvaliditätKonstruktvaliditätKonstruktvalidität als zentrales Testgütekriterium nicht länger als Teil der Validität – wie etwa AugenscheinAugenscheinvalidität-, InhaltsInhaltsvalidität- oder KriteriumsvaliditätKriteriumsvalidität –, sondern, basierend auf Messick (1989), als allumfassendes Konzept, das es bei der Testerstellung zu berücksichtigen gilt (vgl. Chapelle 2016, 23). Zudem wird in jüngeren Definitionen der Fokus weg von der Validität als Eigenschaft eines Tests hin zur validen Verwendung und Interpretation der Testergebnisse (‚Validierung‘) gelegt, wozu ein assessment use argument herangezogen wird (vgl. Bachman 2005; Weir 2005a; Xi 2008).

Eckes (2015b) spricht sogar von der polymorphen Bedeutung der Begriffe Validität bzw. Validierung, aufgrund derer es schwierig sei, eine klare und eindeutige Definition dieser Begriffe zu bieten. Zusammenfassend hält Eckes als Konsens in der langjährigen Diskussion der Validitäts-/Validierungskonzepte fest, dass Validität keine Eigenschaft eines Tests ist, sondern dass sich Validität auf die Interpretation der Ergebnisse eines Tests und die damit verbundenen Inferenzen bezieht (ebd., 451). Des Weiteren sei Validität von unterschiedlichen Arten bestimmt, von denen die Konstruktvalidität inzwischen eine übergeordnete Position einnehme. Validität sei ferner nicht dichotom (valide/nicht valide), sondern als Kontinuum aufzufassen und als Prozess zu sehen (ebd., 452).

Im schulischen Kontext sind Augenscheinvalidität und KriteriumsvaliditätAugenscheinvalidität: Akzeptanz von Tests Kriteriumsvalidität: Vergleichbarkeit von Tests von unterschiedlicher Bedeutung. Die Augenscheinvalidität hat einen nicht unwesentlichen Einfluss auf SchülerInnen oder Eltern. Weisen Eltern oder SchülerInnen eine Klassen-/Schularbeit oder einen Test als inakzeptabel zurück, weil in ihren Augen das Testformat oder die Art der Prüfung fremd oder die Aufgaben nicht plausibel erscheinen, so hat der Test eine wesentliche Funktion nicht erfüllt und er wird nicht als solcher angenommen. SchülerInnen und Eltern müssen deshalb mit den eingesetzten Testformaten vertraut sein. Die Kriteriumsvalidität kann konkurrent oder prädiktiv festgestellt werden. Wird z. B. ein Test in der Schule mit einem bereits validierten schulexternen Messverfahren, das dasselbe sprachliche Konstrukt wie der Test in der Schule misst, gleichzeitig durchgeführt, so sollten die Ergebnisse idealerweise korrelieren. Man spricht in diesem Fall von konkurrenter Validitätkonkurrente Validität.

Wird das Kriterium erst nach der Messung erhoben, haben wir es mit prädiktiver Validitätprädiktive Validität zu tun. Ein Beispiel hierfür wäre der akademische Erfolg im fremdsprachlichen Ausland, der sich erwartungsgemäß so einstellt, wie er durch die Note (die Bewertung) der Qualifikationsprüfung, die Voraussetzung für die Zulassung zum Studium an der ausländischen Institution war, vorhergesagt wurde.

Von Lehrpersonen entwickelte Prüfungen und Tests können nur ansatzweise valide sein, da die Überprüfung der Validität – so wie bei standardisierten Tests – komplexe Verfahren wie Pilotierungen,Pilotierung FeldtestungenFeldtestung (s. Abschnitt 5.4) und eine statistische Auswertung der Testitems erfordern würde. Dennoch können LehrerInnen Maßnahmen ergreifen, um die Validität ihrer Klassen-/Schularbeitsergebnisse zu erhöhen. Da ReliabilitätReliabilität die Voraussetzung für Validität ist, sollten die o.a. Maßnahmen (s. Abschnitt 4.1.2) nach Möglichkeit umgesetzt werden. Des Weiteren helfen im Schulalltag ein klares Verständnis des zugrunde liegenden theoretischen KonstruktsKonstrukt, die Kenntnis und eine transparente Weitergabe der curricularen Erfordernisse an die SchülerInnen und – darauf aufbauend – gemeinsam mit KollegInnen ausgearbeitete TestspezifikationenTestspezifikationen bzw. TestanleitungenTestanleitung (s. dazu Abschnitt 5.3 und Kapitel 11) sowie die begründete Wahl geeigneter Aufgabenformate. Testspezifikationen beschreiben, was mit einer Klassen-/Schularbeit, einem Test, geprüft werden soll und erleichtern LehrerInnen damit die Erstellung, Durchführung und Korrektur von schulischen Arbeiten, machen diese in Parallelklassen vergleichbar und geben SchülerInnen, Eltern und KollegInnen einen Einblick in die an der Schule gelebte Prüfungskultur. Sie tragen auf diese Weise wesentlich zu einer Transparenz der Leistungsbeurteilung bei.

Fassen wir abschließend zusammen: Objektivität kann bei der Durchführung, Auswertung und Interpretation eines Tests als ObjektivitätTeil der ReliabilitätReliabilität bzw. als eine Bedingung für sie angesehen werden. Klare Durchführungsparameter, transparente Auswertungskriterien und eine konstruktbezogene Interpretation der Ergebnisse helfen, subjektive Theorien einzelner PrüferInnen zu reduzieren.

Reliabilität ist als Voraussetzung für den ValidierungsprozessValidität unabdingbar, garantiert aber an sich noch keine Validität. Für den schulischen Kontext stellt sich also nicht die Frage, ob Validität oder Reliabilität das Testprinzip ist, das eher umgesetzt werden kann bzw. soll (vgl. Kranert 2013, 10), da beide Gütekriterien für eine qualitativ hochwertige Leistungsmessung erforderlich sind. Betrachtet man obendrein KonstruktvaliditätKonstruktvalidität als das umfassende Kriterium, das Inhalt, Vergleichbarkeit und AugenscheinAugenscheinvalidität einschließt, so wäre diese Diskussion im Grunde ohnehin obsolet.

Der GeR unterstützt das Verständnis für das zugrunde liegende sprachliche Konstrukt auch für Testverfahren, die unter den Begriff classroom-based assessmentclassroom-based assessment bzw. instruction-embedded assessment fallen (Rea-Dickens 2004). Mit Quetz (2008) kann treffend geschlossen werden: So wie wir im schulischen Kontext lehren und unterrichten – kommunikativ, handlungs- und kompetenzorientiertKompetenzorientierung –, sollten wir auch testen und prüfen.

Die folgende Abbildung 1 bietet abschließend eine Übersicht über die Testgütekriterien, die einzelnen Formen und Kategorien sowie Messverfahren bzw. -methoden.

Abb. 1: Testgütekriterien Objektivität – Reliabilität – Validität

Testen und Bewerten fremdsprachlicher Kompetenzen

Подняться наверх