Читать книгу Komplexe Dynamische Evaluation (KDE): Ein Instrument zur Optimierung des universitären Fremdsprachenunterrichts - Christoph Waldhaus - Страница 11

1.3 Optimierungspotential bei Evaluationsmodellen

Оглавление

Um nun wieder auf jene Aspekte zurückzukommen, die bei vielen Lehrveranstaltungsevaluationen optimiert werden können, werden, ausgehend von den Evaluationsstandards, in Folge einige zentrale Punkte angeführt, die vor allem mit den Nützlichkeitsstandards, Durchführbarkeitsstandards und Genauigkeitsstandards in Konflikt stehen. Die Korrektheitsstandards wurden in den analysierten Lehrveranstaltungsevaluationen meiner Ansicht nach nicht verletzt, da alle, soweit von außen nachvollziehbar, zum Zeitpunkt der Analyse rechtlich und ethisch korrekt durchgeführt wurden.

Als ein Hauptkriterium für das erfolgreiche Durchführen von Evaluationen wird im Handbuch der Evaluationsstandards unter den Nützlichkeitsstandards festgehalten, dass Evaluationen »informativ, zeitgerecht und wirksam« sein sollen (vgl. Sanders 2006:31). Dies ist eine zentrale Forderung, denn mit jeglicher Evaluation stehen gewisse Ziele in Verbindung. Werden Nützlichkeitsstandards nicht erfüllt, sind die Ergebnisse der Evaluation für bestimmte Absichten, wie etwa die Qualitätsoptimierung des Fremdsprachenunterrichts, kaum relevant und der Aufwand steht in keiner vertretbaren Relation zum Informationsgehalt.

Wenngleich der Informationsgehalt, den die untersuchten Evaluationsfragebögen generieren, den Lehrenden bei der Optimierung der Lehre in der einen oder anderen Form durchaus behilflich sein könnte, so ist bei den analysierten Modellen der Zeitpunkt sehr ungünstig, zu welchem die Lehrenden an die jeweiligen Informationen gelangen. Ausnahmslos alle analysierten Evaluationen wurden zum Untersuchungszeitpunkt in Form einer summativen Evaluation am Ende des Kurses/Semesters durchgeführt.

Summative Evaluationen werden im Gegensatz zu formativen Evaluationen nach der Durchführung eines Programms (z.B. Fremdsprachenkurs) oder einzelner Maßnahmen eingesetzt und sollen zusammenfassende Aussagen über deren Wirksamkeit tätigen (vgl. Gollwitzer/Jäger 2009:16). Das bedeutet, sie sollen in Erfahrung bringen, wie wirksam bestimmte Maßnahmen/Programme waren. Das Ziel formativer Evaluationen hingegen besteht darin, Maßnahmen zu optimieren bzw. Rahmenbedingungen zu schaffen, die die Wirksamkeit einer Maßnahme eher wahrscheinlich machen (vgl. ibid.). Bei formativen Evaluationen werden somit in regelmäßigen Intervallen Zwischenergebnisse erstellt, die das Ziel verfolgen, laufende Interventionen zu modifizieren oder zu verbessern (vgl. Bortz/Döring 2006:110).

Im konkreten Fall der Lehrveranstaltungsevaluationen bedeutet dies, dass die betreffenden Lehrpersonen mit den eingesetzten Methoden jene Informationen, die ihnen beim Optimieren des Unterrichts behilflich sein könnten, zu einem Zeitpunkt erhalten, zu welchem es ihnen nicht mehr möglich ist, auf diese Informationen einzugehen und eventuell notwendige Veränderungen durchzuführen, die potentielle Verbesserungen für den jeweiligen Kurs nach sich ziehen könnten, ein Suboptimum, welches u.a. auch von Stieger/Burger (vgl. 2010:163) in einer ähnlichen Analyse kritisiert wird. Wenngleich nicht negiert werden kann, dass einige Informationen durchaus auch für kommende Semester bzw. für die Optimierung der Lehre einzelner Lehrpersonen generell von Relevanz sein können, so ist die Unterrichtsoptimierung für die betreffende Gruppe, die an der Evaluation teilnahm, nicht mehr möglich und es stellt sich die Frage, ob durch diese Herangehensweise nicht das eigentliche Ziel verfehlt wird, welches man mit der Evaluation initial intendierte.

Ein weiterer Grund, warum Evaluationen nicht ihr volles Wirkungspotential ausschöpfen können, wenn sie ausschließlich am Ende des Kurses/Semesters durchgeführt werden, ist, dass die Lehrenden auch nicht mehr direkt zum Handeln angehalten werden, da sie ja im darauffolgenden Semester oftmals mit einer völlig neuen Gruppe konfrontiert sind und eventuell auch bei gleichen Unterrichtsmethoden unterschiedliche Evaluationsergebnisse erwarten können. Dadurch ist fraglich, wie sinnvoll die Lehrenden diese Art der Evaluation einstufen und wie ernst sie die Ergebnisse nehmen bzw. wie motiviert sie sind, Dinge zu verändern. Dies trifft natürlich umgekehrt auch auf die Studierenden zu. Mit welcher Ernsthaftigkeit werden sie die Fragebögen ausfüllen, wenn sich für sie keine unmittelbaren Verbesserungen mehr abzeichnen? Vielfach resultiert diese Methode daher rein in einer Bewertung, die wenige bis keine Konsequenzen in Form einer Optimierung nach sich zieht.

Ein dritter Grund, warum sich die Wirkung der analysierten Evaluationen in einigen Bereichen in Grenzen hält, ist vielfach der Aufbau der Fragebögen selbst, der zwar für eine statistische Auswertung hervorragend geeignet ist, jedoch genau jene Informationen nicht erhebt, die für die Lehrenden in Hinblick auf eine weitreichende Verbesserung der Lehre interessant und notwendig wären. Die in den Bögen gestellten Fragen analysieren vielfach einen von den Studierenden empfundenen Zustand, regen die LernerInnen jedoch nicht dazu an, sich an der Verbesserung aktiv zu beteiligen bzw. konkrete Informationen Preis zu geben oder hilfreiche Vorschläge zu unterbreiten, die zu einer Optimierung führen würden, wie dies auch in den ESG explizit vorgeschlagen wird.

Ein Beispiel stellt etwa folgende Frage aus einem der untersuchten Fragebögen dar: Hat der/die Lehrende die Lern- und Prüfungsziele klar dargelegt? Abgesehen von der Tatsache, dass das Explizieren der Lern- und Prüfungsziele, wenn überhaupt dezidiert, dann zu Beginn des Semesters erfolgt, kann bezweifelt werden, dass sich alle LernerInnen mehrere Monate danach noch im Detail daran erinnern können, was genau die Lehrperson wie mitteilte. Des Weiteren waren u.U. in der Lehrveranstaltungseinheit, in welcher die Lern- und Prüfungsziele expliziert wurden, nicht alle LernerInnen anwesend und werden nun dennoch zu einer Antwort gezwungen, da alle Fragen zu beantworten sind, damit die Evaluation gültig ist. Darüber hinaus gibt diese geschlossene Frage lediglich Auskunft darüber, wie einzelne LernerInnen diesen Sachverhalt in der jeweiligen Gruppe empfanden, wie die Analyse der Fragebögen zeigt. Während es für manche auf der Likert-Skala nicht klar war, war es für andere LernerInnen sehr klar. Sie offeriert der Lehrperson jedoch keine Anhaltspunkte darüber, wo genau die Probleme lagen, wenn diese Frage etwa mit nicht klar beantwortet wurde. Auch bietet der Fragebogen den Studierenden keine Möglichkeit, Vorschläge zu unterbreiten, die für sie eine Verbesserung der Situation bewirken würden. Das bedeutet, die Lehrperson weiß zwar Bescheid darüber, dass für einige LernerInnen in diesem Bereich ein Problem war bzw. dass einige dies rückwirkend so empfanden, sie kann jedoch aufgrund fehlender Information, wo genau das Problem lag und wie dies für die LernerInnen gelöst werden könnte, verhältnismäßig wenig verändern. Diese Tatsache bewahrheitet sich bei sämtlichen Fragen in allen untersuchten Fragebögen.

Man könnte dies nun mit der Sektion der offenen Fragen am Ende des Fragebogens rechtfertigen, wo die LernerInnen angeben können, was ihnen am Kurs gut/weniger gut gefallen hat. Jedoch zeigte eine Analyse der Lehrveranstaltungsevaluationen, die von mir in den letzten sechs Jahren in den eigenen Kursen durchgeführt wurden, dass diese Sektion von den Studierenden kaum bis nicht genutzt wird, um davor getätigte Angaben zu verdeutlichen oder um Verbesserungsvorschläge zu unterbreiten. Es bleibt zu bezweifeln, dass sich dieser Sachverhalt in anderen Kursen bzw. an anderen Instituten/Zentren in dieser Hinsicht markant unterscheidet.

Darüber hinaus ist auch das Stellen der betreffenden Frage nach der Darlegung der Prüfungsziele an sich problematisch. Einerseits, weil diese Art der Fragestellung generell sehr differenzierte Ergebnisse fördert, die in der Praxis schwer nutzbar gemacht werden können, ein Phänomen, auf welches bereits Kromrey (vgl. 1996) hinweist, und andererseits, weil das Verstehen der Erklärung der Lehr- und Prüfungsziele zu sehr auf die Lehrperson zentriert wird. Dies bedeutet im konkreten Kontext bei ersterem, dass einige LernerInnen die betreffende Frage positiv und andere negativ beantworten werden, wie dies oben bereits angeführt wurde, und diese Inkonsistenz nicht nur zwischen verschiedenen Lehrveranstaltungen zu bemerken ist, sondern ebenso innerhalb jeder (oder fast jeder) Veranstaltung, die eine bestimmte TeilnehmerInnenzahl von ca. 20 überschreitet, wie Kromrey (vgl. ibid.) expliziert.

Dieser Umstand wurde auch in meinen eigenen Lehrveranstaltungen mehrfach beobachtet, wenn von mir exakt der gleiche Unterrichtsstoff anhand identer Lehrmethoden in Parallelgruppen vermittelt, aber von diesen unterschiedlich aufgenommen bzw. evaluiert wurde. Das bestätigt die Annahme, dass es folglich nicht nur an der Art und Weise liegen kann, wie die jeweilige Lehrperson Inhalte vermittelt, sondern auch daran, wie die LernerInnen diese aufnehmen und verarbeiten. Dies wiederum verdeutlicht die unterschiedliche Auffassung der Studierenden über gutes Lehrverhalten und man sieht sich als Lehrperson mit der Tatsache konfrontiert, dass, wenn man verstärkt auf Vorschläge einer Interessensgruppe eingeht, bei dieser Pluspunkte sammelt, während man u.U. bei anderen mit derselben Methode für Unmut sorgt – eine Feststellung, auf die auch eine Lehrende1 in den im Rahmen dieser Arbeit durchgeführten qualitativen Interviews hinwies:

Weil da ist ein Mensch, schreibt das und will über Bolivien reden, aber das ist wirklich … so extrem individuell. Und das ist eben wo manchmal die Evaluierungen vom Ende vom Kurs … ist ein bisschen dieses … gleicher Punkt, komplett auseinander. […] Also komplett die Meinung. Ich hätte lieber mehr davon, ich hätte lieber mehr davon. Und der andere sagt, ich hätte lieber weniger davon. Und es ist schwer irgendwie … [LP007: 230–236]

Ein weiteres Problem ist im Bereich der Auswertung der Fragen zu finden. Kromrey (vgl. 1996) expliziert, dass bei vielen Evaluationen lediglich die Mittelwerte aus den Angaben aller Befragten betrachtet werden, was oftmals ein für die Lehrperson durchaus zufriedenstellendes Resultat liefern kann, jedoch im Endeffekt ein »statistisches Artefakt« (ibid.) darstellt. Konkret ist damit gemeint, dass, wenn die Lehrleistung einer Lehrperson in einer bestimmten Lehrveranstaltung beispielsweise als durchschnittlich bewertet wurde (also die Leistung der Lehrperson auf fast allen Items ungefähr mit »3« bewertet wird) und man in dieser Kursgruppe danach sucht, wie groß die Anzahl der Studierenden ist, die die betreffende Lehrveranstaltung mit »3« bewertet hat, dann zeigt sich, dass eine solche Gruppe in diesem Kurs vielfach nicht vorhanden ist. Vielmehr gibt es Studierende, die die Lehrleistung besser beurteilen, schlechter beurteilen, und andere, die teils positiv, teils negativ bewerten. Dadurch ergibt sich, wie Kromrey (1996) folgert, kein statistisch befriedigendes Ergebnis mit ausreichend homogenen Clustern, welches »hinreichend große Gleichartigkeit der Urteile innerhalb der jeweiligen Gruppen von Befragten bei zeitgleich möglichst deutlichen Unterschieden zwischen den Gruppen« erlaubt.

Für die unmittelbare Praxis des Fremdsprachenunterrichts im Rahmen von universitären Sprachenzentren sind für die meisten Lehrenden viele statistische Auswertungen meiner Erfahrung nach ohnehin eher sekundär. Zweifelsfrei kann man sich ein ungefähres Bild über die Qualität des Unterrichts machen, wenn z.B. 20 von 25 LernerInnen einen Kurs mit »sehr gut« bewerten, die Frage, die für mich als Lehrperson jedoch brennender scheint, ist, zu erfahren, warum die verbleibenden 20 % diesen Kurs z.B. mit »eher gut« oder vielleicht sogar »weniger gut« bis »nicht gut« bewertet haben. Dies kann aus den untersuchten Fragebögen nicht erfahren werden.

Ein weiterer Kritikpunkt, der zwar nur auf eines der untersuchten Fremdsprachenzentren zutrifft, aber dennoch Brisanz aufweist, ist die Tatsache, dass an einer Universität die Fremdsprachenkurse zum Untersuchungszeitpunkt ausschließlich mit dem universitätsweiten Evaluationsbogen evaluiert wurden. Dies ist auf die Tatsache zurückzuführen, dass die Fremdsprachenkurse dort fix in den Rahmen der Lehrveranstaltungen fielen und die Studierenden für diese nicht bezahlten, wie dies an den externen Sprachenzentren der Fall war. Die primäre Kritik an Globalfragebögen ist, dass diese per se üblicherweise, und allem Anschein nach auch im konkreten Fall, für einen Lehrveranstaltungstyp wie etwa eine Vorlesung oder Übung konzipiert wurden und in der Regel sehr allgemein gehalten sind, damit sie für möglichst viele Veranstaltungen verwendet werden können. Daher wird in derartigen Evaluationsfragebögen kaum auf die Besonderheiten des Sprachenunterrichts eingegangen, was eine wirkliche Optimierung desselben mit diesen Mitteln somit eher unwahrscheinlich macht.

Darüber hinaus wurde im besagten Fragebogen auch die fachlich-inhaltliche Qualität der Lehrveranstaltung erfragt, die die fachliche Kompetenz der Lehrenden beurteilen soll, was, wie bereits Marques et al. (vgl. 1979:848) konstatieren, nicht durch Studierende beurteilt werden kann, denn wenn sie dies könnten, besuchten sie, wie Rindermann (2009:71) folgert, »aufgrund der Redundanz die falsche Veranstaltung«.

Ähnlich verhält es sich mit Fragen, ob die Lehrperson nach Ansicht der Studierenden gut vorbereitet wirke bzw. die Lerninhalte sicher vortrage, wie dies im Fragebogen einer anderen Universität erfragt wurde. Aus der Perspektive der Lehrperson stellt sich nun die Frage, wie die Studierenden beurteilen wollen, wie intensiv man sich als Lehrperson auf die einzelnen Unterrichteinheiten vorbereitet bzw. was dies letztendlich über das tatsächliche Gelingen und über die Qualität der Veranstaltungen aussagt. Viele KollegInnen werden mir an dieser Stelle wahrscheinlich zustimmen, dass sie schon oft sehr genau und gut vorbereitet waren und eine bestimmte Einheit dennoch nicht oder weniger zufriedenstellend verlief, während man an anderen Tagen vom vorbereiteten Konzept vielleicht völlig abwich, spontan handelte, und der Unterricht sehr erfolgreich war. Erfahrene Lehrende werden zudem in vielen Fällen weniger Vorbereitungszeit benötigen als DebütantInnen. Dies bedeutet jedoch nicht, dass ihr Unterricht dadurch weniger Qualität aufweist. Des Weiteren generiert die besagte Frage keine wirklich brauchbare Information für die Optimierung des Unterrichts, sondern stiftet meiner Ansicht nach bei den Studierenden eher zu Spekulationen an und sorgt bei den Lehrenden nicht selten für Unmut.

Ein weiterer Punkt, der im Zusammenhang mit Evaluationsmodellen genannt werden muss, die nur am Ende des Kurses evaluieren, ist, wie im Kapitel zur Qualität noch im Detail erörtert wird, die Tatsache, dass man sich, bevor man irgendetwas (beispielsweise eine Lehrveranstaltung) hinsichtlich der Qualität beurteilen möchte, zu Beginn Beurteilungskriterien festlegen muss, nach denen man im Endeffekt evaluiert. Nur wenn unter allen Beteiligten ein gewisser Konsens herrscht, was für diese Gruppe unter Qualität, also unter gutem Unterricht zu verstehen ist, und man sich darauf einigt, in welche Richtung während des Kurses gesteuert werden soll, kann man am Ende beurteilen, ob und wie gut man dort angekommen ist. Um es frei nach Seneca (vgl. epist. 71:3) zu sagen: Kein Wind ist demjenigen günstig, der nicht weiß, welchen Hafen er anstrebt. Diese initiale Bestimmung der Ziele und Festlegung der Beurteilungskriterien stellt einen zentralen Standard qualitativ hochwertiger Evaluationen dar und wurde zum Untersuchungszeitpunkt von keinem der analysierten Evaluationsansätze berücksichtigt.

Auch hinsichtlich der Distribution bzw. Auswertung der Fragebögen ist bei einigen Instituten/Zentren leise Kritik gerechtfertigt, vor allem bei jenen, an welchen die Fragebögen von den Lehrenden in Papierform während einer Unterrichtseinheit (üblicherweise gegen Ende des Kurses/Semesters) an die LernerInnen ausgeteilt, danach eingesammelt und im Anschluss daran mühsam ausgewertet werden. Dies kann im 21. Jahrhundert aus zumindest drei Gründen nicht mehr gerechtfertigt sein: Erstens bedeutet die Auswertung für die Lehrenden einen erheblichen zeitlichen Zusatzaufwand, der in der Regel nicht extra vergütet wird und bei der vielfach schlechten Bezahlung der LektorInnen meiner Ansicht nach nicht zu legitimieren ist. Zweitens kann es durch die manuelle Auswertung vor allem aufgrund des Zeitfaktors zu Fehlern kommen, die die (statistischen) Ergebnisse verfälschen. Drittens sind mittlerweile viele Online-Evaluationsprogramme vorhanden, die nicht nur gratis genutzt werden können, sondern die zudem die Ergebnisse auch mehr oder weniger automatisch und in digitaler Form generieren, sollten vermehrte Kosten als Argument gegen eine computergestützte Evaluation sprechen. Dadurch können Ergebnisse in Folge nicht nur schnell und platzsparend gespeichert, sondern auch leicht miteinander verglichen und weiter genutzt werden, was auch bei der Beantwortung zukünftiger Forschungsfragen nützlich sein könnte.

Ein weiterer und für mich vielleicht der zentrale Punkt im Hinblick auf Lehrveranstaltungsevaluationen wird von Nowakowski et. al. (2012:255) angeführt, die zu dem Schluss kommen, dass »das Potential, das Lehrevaluationen für die Qualitätsentwicklung der Lehre bergen, bisher nicht wirklich verstanden und ausgeschöpft« wird. Dies ist zum einen darauf zurück zu führen, dass sie aktuell, wie oben bereits angeführt, primär als retrospektives Verfahren zur Analyse von Lehrveranstaltungen eingesetzt werden, wobei es sich bei dieser Art des Feedbacks um keinen dialogischen Austausch zwischen Lehrenden und Studierenden handelt, sondern überwiegend um eine einseitige Darstellung von Sichtweisen, die ein weiteres Diskutieren der darin angegebenen Punkte üblicherweise nicht ermöglicht und somit eine Optimierung des Unterrichts nur begrenzt erlaubt. Zudem werden wesentliche Faktoren, die mit Evaluationen einhergehen können, kaum berücksichtigt, wie z.B. die Förderung der Reflexion bzw. Selbstreflexion auf beiden Seiten, wesentliche Vorgänge beim Sprachlehren und -lernen (siehe z.B. Anderson 2008) sowie die daraus möglicherweise resultierende Bildung, Bestätigung oder Veränderung des Selbstbildes der am Unterrichtsgeschehen Beteiligten. Dass dies für das erfolgreiche Sprachenlernen wesentlich ist, darauf wird in der Literatur vielfach hingewiesen (siehe z.B. Jerusalem 1993). Zudem kann Evaluation, die im Wesentlichen auch eine spezielle Art des Feedbacks ist, ebenso zur Optimierung der Kommunikation zwischen Lehrenden und Studierenden beitragen. Alle diese essentiellen Punkte werden in den untersuchten Evaluationen zum Zeitpunkt der Analyse kaum bis nicht beachtet.

Die hier angeführte Auflistung ist nur ein kurzer Ausschnitt und könnte noch weiter fortgesetzt werden, was jedoch nicht Intention dieses Buches ist. Vielmehr wird versucht, Lösungen aufzuzeigen, die zur Verbesserung der aktuell eingesetzten Evaluationsmethoden und Werkzeuge beitragen sollen bzw. überhaupt einen neuen Zugang zur Evaluation als wichtige Hilfestellung bei der Qualitätsoptimierung aufzuzeigen.

Komplexe Dynamische Evaluation (KDE): Ein Instrument zur Optimierung des universitären Fremdsprachenunterrichts

Подняться наверх