Читать книгу Testen und Bewerten fremdsprachlicher Kompetenzen - Barbara Hinger - Страница 12

4.1.2 ReliabilitätReliabilität

Оглавление

Unter Reliabilität eines Tests versteht man die Zuverlässigkeit oder Konsistenz der Resultate, die er hervorbringt: „A reliable test is consistent in that it produces the same or similar result on repeated use“ (vgl. Jones 2012, 352). So ist eine konsistente bzw. genaue Bewertung dann gegeben, wenn z. B. bei einer Klassen-/Schularbeit oder einem Test ein und dieselbe Lehrperson bei wiederholt vorgenommener Bewertung immer wieder zu demselben (oder einem sehr ähnlichen) Ergebnis kommt (Intrarater-ReliabilitätIntrarater-Reliabilität) bzw. wenn verschiedene Lehrpersonen zu ein und demselben (oder einem sehr ähnlichen) Ergebnis kommen (Interrater-ReliabilitätInterrater-Reliabilität). Somit kann scorer objectivityscorer objectivity als wesentlicher Teilaspekt der Reliabilität betrachtet werden; Weir & Shaw (2005) sprechen in diesem Zusammenhang sogar von scoring validity (s. Abschnitt 4.1.3 zu Validität). LehrerInnen sollten bedenken, dass manche Aufgabenformate konsistente (stabile) Ergebnisse unterstützen. So ist ein geschlossenesgeschlossenes Aufgabenformat AufgabenformatGeschlossene und offene Aufgabenformate unterstützen Reliabilität in unterschiedlichem Ausmaß. wie etwa multiple choice-multiple choice-Aufgabe oder EinfachwahlaufgabenEinfachwahlaufgabe zur Überprüfung des Leseverständnisses durch die Festlegung eines eindeutigen Lösungsschlüssels gut dazu geeignet, dass ein und dieselbe Person mehrmals oder verschiedene BewerterInnen gleichzeitig zu demselben (oder einem sehr ähnlichen) Ergebnis kommen. AuswertungsAuswertungsobjektivität- und Interpretationsobjektivität können bei geschlossenen, standardisierten Aufgabenformaten wie multiple choice- oder ZuordnungsaufgabenZuordnungsaufgabe als gegeben angesehen werden. Wird hingegen die Fertigkeit Schreiben anhand eines Aufsatzes, der in der Fremdsprache zu einem bestimmten Thema verfasst werden soll, überprüft, lässt dieses offene Testformat bei der Bewertung und Interpretation einen höheren subjektiven Spielraum zu, vor allem, wenn nur ungenau spezifizierte Kriterien wie Inhalt, Fehler oder Stil zur Verfügung stehen oder wenn „jeder Lehrer seinen eigenen Maßstab zur Beurteilung des Auswertungsergebnisses“ anlegt (Schelten 1997, 127). Die reliable Verwendung von Bewertungsrastern zur Überprüfung der produktiven Fertigkeiten (s. Abschnitt 7.3) setzt gezielte rater trainings für LehrerInnen und SprachkompetenzprüferInnen voraus, in denen die Beurteilenden lernen, sich abzustimmen und sich großteils auf ein gemeinsames Verständnis der Deskriptoren, die die einzelnen Bewertungskriterien näher erläutern, zu einigen.

Bei Dlaska & Krekeler (2009, 35) findet sich ObjektivitätObjektivität als Teil der Reliabilität dem Qualitätskriterium Gerechtigkeit zugeordnet (s. oben). Dies ist vor allem dem Umstand geschuldet, dass eine möglichst objektive Durchführung und Auswertung eines Tests für eine konsistente, also reliable, Bewertung unabdingbar ist. Reliabilität wiederum ist Voraussetzung für die Validität (s. Abschnitt 4.1.3) – allein, ein reliabler Test bedeutet noch nicht, dass er auch valide ist (vgl. Jones 2012, 352). Nach Dlaska & Krekeler (2009, 47) ist die Qualität einer Bewertung abhängig von den PrüferInnen, ihren Fähigkeiten, Einstellungen und Werthaltungen. Für die Leistungsbeurteilung im Unterricht erachten sie Reliabilität aber nicht als zentral und fordern sie nur als Bedingung für standardisierte und formelle high stakes testshigh stakes test ein – Tests, bei denen die Ergebnisse für jede/n einzelne/n KandidatIn gewichtige Folgen haben. Das Pilotieren von Klassen-/Schularbeiten zur Messung ihrer Qualität – sei es in Form von Paralleltests oder Testwiederholungen, um sich z. B. über den Schwierigkeitsgrad oder die Unmissverständlichkeit der Aufgabenstellung klar zu werden – ist im Schulalltag, wenn überhaupt, nur bedingt möglich. Eine Arbeit im Team würde allerdings der Qualität von Klassen-/Schularbeiten zuträglich sein – erhöht doch Arbeitsgenauigkeit die Reliabilität der Messung. Auch die Kenntnis der genannten Methoden (parallel test methodparallel test method und test-retest methodtest-retest method) wäre geeignet, sich über die Konsistenz von Prüfungen klar(er) zu werden, denn auch Klassen-/Schularbeiten sollten über jene Qualität verfügen, die eine genaue(re) und konsistente Auswertung und Interpretation der Ergebnisse ermöglicht.

Salkind (2006) setzt Reliabilität mit Testqualität gleich, wenn konsistente Messungen garantiert sind1 – ein Ziel, dem sich Lehrpersonen auch im Schulalltag nähern könnten, wenn sie sich z. B. für das gemeinsame Ausarbeiten von TestspezifikationenTestspezifikationen (s. Abschnitt 5.3) entschließen und bereit sind, über die Fachteams oder -arbeitsgemeinschaften an den Schulen Tests (Klassen-/Schularbeiten) in Parallelklassen einzusetzen oder in vergleichbaren Jahrgängen auch an anderen Schulen durchzuführen.

Ein wesentliches Kennzeichen von Reliabilität ist der ReliabilitätskoeffizientReliabilitätskoeffizient, der den Grad der Messfehlerfreiheit eines Tests wiedergibt, oder der Wert der inneren Konsistenz (internal reliability) von Items – ermittelbar mithilfe eines Computer-Software-Programms wie SPSS (= Statistical Package for the Social Sciences). Der Koeffizient drückt aus, dass die einzelnen Items eines Tests zueinander passen, dasselbe theoretische KonstruktKonstrukt (z.B. Leseverständnis) überprüfen und dass die einzelnen SchülerInnen auf die gleichen Rangplätze verwiesen werden (vgl. Fulcher & Davidson 2007, 106). Auch wenn LehrerInnen nicht über die zeitlichen und technischen Ressourcen verfügen, die innere KonsistenzInnere Konsistenz von Testitems ist Voraussetzung für das Messen eines Konstrukts. von Testitems zu ermitteln (wie z. B. in Green 2013, 35–40 dargestellt), so können sie doch eine Reihe von einfachen statistischen Maßnahmen ergreifen, die ihre Klassen-/Schularbeiten und Tests reliabler machen2. Neben einer präzisen und klaren Aufgabenstellung sind dafür u.a. die Testlänge (Anzahl der Items bzw. der Aufgaben), die Homogenität der Items, der Schwierigkeitsgrad der einzelnen Aufgaben sowie die Bandbreite der Aufgaben (scope), die Wahlmöglichkeiten eher ausschließt, ausschlaggebend (vgl. Green 2014, 73; Schelten 1997, 117).

Je länger der TestTestlänge, homogene Items und trennscharfe Aufgaben erhöhen die Reliabilität. ist, desto geringer wird der Zufall sein, der das Testergebnis beeinflusst. Eine Aufgabe zu erstellen, die aus lediglich drei oder vier Items zum Gebrauch von Adverb/Adjektiv im Englischen oder aus vier oder fünf Items zur Verwendung der глаголы движения (Verben der Fortbewegung) im Russischen besteht, wird nur eine sehr geringe Aussagekraft über die grammatische Kompetenz der/des Sprachverwendenden haben. Je mehr Items zum Einsatz kommen und je homogener diese sind, desto reliabler wird das Ergebnis und die damit verbundene Interpretation in Bezug auf das gemessene Konstrukt (z.B. jenes der grammatischen Kompetenz). Ein Test zur Überprüfung des Leseverständnisses, der sowohl Items zum selektiven als auch zum detaillierten Lesen enthält, wird das Konstrukt Lesen deutlicher und umfassender repräsentieren, als wenn nur globales Lesen überprüft wirdKonstruktunterrepräsentation.

Je trennschärfer die Aufgaben sind, desto klarer kann zwischen lernstarken und lernschwachen SchülerInnen unterschieden werden und umso messgenauer ist die Klassen-/Schularbeit. Das bedeutet, dass mehrere schwache SchülerInnen nicht jene Items eines Tests lösen können sollen, an denen ein/eine gute/r SchülerIn scheitert. Man spricht in diesem Fall von ItemdiskriminierungItemdiskriminierung: Trennschärfe von Testitems. Deswegen gilt es zu leichte bzw. zu schwierige Items, Items, die das Erraten von Lösungen zulassen, oder Items, die Ausnahmen überprüfen, zu vermeiden, da sie die Reliabilität einer Aufgabe verringern (vgl. Alderson, Clapham & Wall 1995).

Die Beachtung der angeführten Punkte führt bei large-scalelarge-scale test oder high stakeshigh stakes test testing definitiv zu konsistenteren und genaueren Messungen, die Ergebnisse einer Überprüfung werden zuverlässiger und die Interpretationen gültiger. Reliabilität ist deshalb die Grundvoraussetzung für das folgende Testprinzip, die Validität oder Gültigkeit. Die Notwendigkeit, reliable, also konsistente Messungen im Schulkontext bzw. in classroom-based assessmentclassroom-based assessment zu erzielen, wird in der Testforschung erst in jüngster Zeit kontroversiell diskutiert (vgl. z. B. Jang 2012; Turner 2012) – auch in Zusammenhang mit der Ausbildung von FremdsprachenlehrerInnen (vgl. Graham 2005) und dem Begriff der Bewertungskompetenz (assessment literacyassessment literacy, s. Kapitel 10). WissenschaftlerInnen scheinen sich aber einig zu sein, dass die Anwendung psychometrischer Testverfahren mit exakter Datenaufbereitung und -evaluation im Klassenzimmerkontext nicht wirklich zielführend ist (vgl. u.a. Ingenkamp & Lissmann 2008, 173). Der Hauptunterschied zwischen large-scale- und classroom-based testing liegt in „the need for evidence“ (Turner 2012, 68): Summative und formative Bewertung im Klassenzimmer (s. Kapitel 10) hat das vorrangige Ziel, durch FeedbackFeedback den Lehr-/Lernprozess zu gestalten, zu verbessern bzw. zu verändern und neue Lernmöglichkeiten zu eröffnen – high stakes testshigh stakes test verfolgen dieses Ziel nicht. Reliabilität im schulischen Kontext könnte und sollte vor allem durch klare und transparente Angaben hinsichtlich Lern- und Bewertungszielen (learning and assessment intentions) wesentlich verbessert werden (vgl. Rea-Dickens 2006, 182).

Testen und Bewerten fremdsprachlicher Kompetenzen

Подняться наверх