Prüfungen sind eine bewährte Methode zur Bewertung akademischer Leistungen, die sowohl von Akademikern als auch von Studenten als gültiges und zuverlässiges Maß für die Leistung angesehen wird. Akademische Einrichtungen schätzen die Effizienz der Durchführung und Benotung sowie die Möglichkeit einer objektiven, leicht dokumentierbaren und standardisierten Messung. Die Studierenden fühlen sich mit dem Format einer Prüfung sicher. Im Vereinigten Königreich und in vielen anderen Kontexten haben die Studierenden während ihrer gesamten Schulzeit Prüfungen abgelegt und sind gut bewandert und manchmal sogar sehr geschickt darin, zu verstehen, was von einer Prüfung verlangt wird, und genau das zu zeigen, und nichts Überflüssiges dazu.
Gleichzeitig und in den letzten Jahren in zunehmendem Maße wurden Prüfungen jedoch auch kritisiert, weil sie Ungleichheiten verstärken, weil sie nicht authentisch genug sind im Hinblick auf das, was von den Schülern in ihrer zukünftigen akademischen und/oder beruflichen Laufbahn erwartet wird, und weil sie keine Gelegenheit bieten, die Tiefe oder Anwendung des Gelernten zu demonstrieren.
Akademische Einrichtungen arbeiten kontinuierlich an der Verbesserung von Lehre, Lernen und Feedback. Die Frage, ob Prüfungen das beste und zuverlässigste Instrument zur Bewertung von Ergebnissen sind, ist Teil einer langen und andauernden Diskussion über umfassendere Bewertungs- und Feedbackverfahren.
Dieser Artikel bietet einige Denkanstöße für die Entscheidung, ob eine Prüfung in Ihrem Kontext eine geeignete Bewertungsmethode ist. Er stützt sich dabei auf ein kürzlich geführtes Gespräch zwischen Dr. Mary Richardson, Professorin für Bildungsbewertung an der Fakultät für Bildung und Gesellschaft des UCL, und Ishan Kolhatkar, Global Client Evangelist bei Inspera.
Warum sind Prüfungen ein so wichtiger Bestandteil der Bewertung?
Prüfungen werden oft dafür kritisiert, dass sie weder authentisch noch relevant sind und dass sie nur oberflächliche Aspekte des Lernens, wie z. B. das Abrufen von Grundwissen, effektiv bewerten. Außerdem wird kritisiert, dass die zeitlich begrenzte Durchführung ohne Zugang zu anderen Ressourcen die Schüler unter Stress setzt und sie daher daran hindert, ihre wahre Leistung und ihr Potenzial zu zeigen.
Zu diesem letzten Punkt kann es besondere Bedenken hinsichtlich eines ungleichen Zugangs für verschiedene Geschlechter und Ethnien geben. Wenn eine Bewertung eine authentische Darstellung dessen sein soll, was von den Studierenden in ihrer zukünftigen akademischen oder beruflichen Laufbahn erwartet wird, dann ist eine Prüfung wahrscheinlich nicht das beste Format.
Warum sind Prüfungen dann so weit verbreitet?
Professor Richardson merkt an, dass es wahrscheinlich drei Hauptgründe gibt, warum eine Prüfung gewählt wird:
- Effizienz für den Einsatz der Studierenden. Eine Prüfung ist ein einmaliges Ereignis, und es ist möglich, zu lernen, wie man eine Prüfung sehr gut meistert.
- Kosten für die Einrichtung. Die Durchführung einer Prüfung ist eine relativ kostengünstige Möglichkeit, die Bewertung zu verwalten. Eine Gruppe von Studierenden legt dieselbe Arbeit zur gleichen Zeit ab, die dann allen Prüfern zur Bewertung zur Verfügung gestellt wird.
- Fach-/Bereichsspezifische Anforderungen. Einige Fächer werden wahrscheinlich immer eine Prüfung erfordern. Zum Beispiel Chirurgen, Anwälte, Piloten – diese Menschen müssen Prüfungen mit hohem Einsatz und hohem Druck ablegen, da sie in ihrem Beruf dazu in der Lage sein müssen, und außerdem müssen sie Zugang zu Wissen haben. Diese Prüfungen müssen sehr anspruchsvoll und hoch standardisiert sein.
Geschlossene Prüfungen unter sicheren Bedingungen können auch eine solide Antwort auf Bedenken hinsichtlich der unbefugten Nutzung von KI sein. Hinzu kommt, dass einige SchülerInnen sich gegen kreativere Bewertungen sträuben werden, da sie dem Format einer Prüfung vertrauen. Sie sind von klein auf mit ihnen als Messinstrument vertraut und empfinden sie möglicherweise als „fairer“, da an alle die gleichen Anforderungen unter den gleichen Bedingungen gestellt werden.
Wann sind Prüfungen als Bewertungsinstrument nicht geeignet?
Wie Professor Richardson erklärt, „… sollte die Bewertung nicht unangemessen in einer Weise eingesetzt werden, die dem Prüfungsteilnehmer schaden könnte“. Eine Standardprüfung, die sich im Laufe der Jahre kaum verändert hat, könnte genau dies bewirken, indem sie dem Schüler die Möglichkeit nimmt, seine Fähigkeiten unter Beweis zu stellen.
Manche Menschen sind besser in der Lage, die Fähigkeiten zu erlernen, um in einer Prüfung gut abzuschneiden, und haben daher in einer Prüfungssituation einen Vorteil gegenüber ihren Mitschülern. Das bedeutet, dass das zugrundeliegende Konstrukt (theoretisches Wissen oder Fähigkeiten, die bewertet werden) einer Prüfungsarbeit die Fähigkeit, eine Prüfung abzulegen, beinhalten könnte.
Wenn eine Prüfung gut geschrieben ist, kann dies angemessen sein (z. B. Chirurgen, Piloten), ansonsten ist es unangemessen und schädlich, wenn jemand gute Prüfungsfähigkeiten benötigt, um die erklärten Lernergebnisse seines Studiengangs zu erreichen – zu denen „Prüfungsfähigkeiten“ wohl kaum gehören. Die Studierenden sind hier in den meisten Fällen auf sich allein gestellt, wenn es darum geht, Fähigkeiten einzusetzen, die sie über Jahre hinweg in der Schule oder speziell außerhalb ihres Studienfachs erworben haben.
Prüfungen schaden den Teilnehmern noch mehr, da sie ihnen kaum die Möglichkeit bieten, etwas Persönliches zu schaffen. Die Möglichkeit, durch Kursarbeiten ein persönlicheres Artefakt zu schaffen, hat das Potenzial, sowohl hoch motivierend zu sein als auch den Studierenden die Möglichkeit zu geben, ihre individuellen Schlüsselerfahrungen zu demonstrieren und zu zeigen, wie sie diese in einem realen Kontext anwenden können.
Wie man entscheidet, ob Prüfungen die richtige Wahl sind
Die Notwendigkeit einer authentischeren, umfassenderen und aussagekräftigeren Bewertung wird zwar anerkannt, doch wie können die Einrichtungen entscheiden, wann eine Prüfung zur Messung der Lernergebnisse angemessen ist?
Professor Richardson rät, sich eine zentrale Frage zu stellen: „Was möchte ich darüber wissen, was meine Studierenden wissen, wenn sie meinen Studiengang abgeschlossen haben?“. Müssen Sie z. B. wissen, dass sie „wissen“, d. h. Zugang zu bestimmten Fakten haben? Und/oder dass sie über dieses Wissen verfügen und es kritisch bewerten können? Oder/und, dass sie es jemandem erklären oder in einer Reihe von Kontexten oder in einem bestimmten Kontext anwenden können?
Die erste Frage ist eine scheinbar einfache und doch sehr komplexe Frage. Sie zwingt den Pädagogen dazu, sich explizit Gedanken darüber zu machen, welche Ergebnisse in Bezug auf das, was der Schüler tatsächlich weiß und mit diesem Wissen tun kann, erzielt werden sollen, was wiederum die Erstellung einer Bewertung erforderlich macht, die es dem Schüler ermöglicht, dies zu demonstrieren.
Bewertungen müssen evaluiert werden, um sicherzustellen, dass sie nicht etwas bewerten, das kein erforderliches Ergebnis ist, und dass sie den Studierenden tatsächlich die Möglichkeit geben, ihre Leistungen ohne künstliche und/oder unnötige Einschränkungen zu demonstrieren. Flint und Johnson (2011) untersuchten die Fairness der Bewertung an einer australischen Universität und fanden heraus, dass ein Schlüsselfaktor, der die Wahrnehmung der Studierenden von einer fairen Bewertung beeinflusst, die [fehlende] Möglichkeit ist, ihre Fähigkeiten zu demonstrieren.
All dies unterstreicht, dass die Lehrkräfte wissen müssen, was sie über das Wissen ihrer Schüler wissen wollen. Dieses Verständnis ist für die Gestaltung der Bewertung von grundlegender Bedeutung, und zu den besten Praktiken gehört es, den Schülern zu helfen, dies ebenfalls zu verstehen.
Bei der Beurteilung der Frage, ob eine Prüfung die beste Form der Bewertung in ihrem Kontext ist oder nicht, sollten sich die Lehrkräfte daran erinnern, wie stark sich die Bewertung auf das Verhalten sowohl der Schüler als auch der Wissenschaftler auswirkt. Was bewertet wird, ist implizit auch das, was geschätzt wird, und wie man diese Anforderungen erfüllt, wird mit viel Energie verfolgt und kann ein wichtiger Motivator sein.
Verbesserung der Bewertungspraktiken
Es wird allgemein anerkannt, dass Bewertungspraktiken nicht immer angemessen und manchmal sogar schädlich sind, und es scheint wahrscheinlich, dass Prüfungen nicht immer die beste Form der Bewertung sind, obwohl sie seit vielen Jahren verwendet werden. Allerdings sträuben sich die Menschen gegen eine Änderung der bewährten Praxis, was angesichts der Erwartungen, die an Bewertungen gestellt werden, nicht verwunderlich ist.
Eine gute Bewertung muss streng, aber nicht ausschließlich sein, sie muss authentisch und dennoch zuverlässig sein, sie muss anspruchsvoll, aber auch fair und gerecht sein, sie muss sich an seit langem etablierte Standards halten, aber auch die aktuellen Bedürfnisse widerspiegeln und sich ihnen anpassen“ (Hounsell, Xu und Tai, 2007, S.1). Die Verwirklichung dieser vielschichtigen Doppelbelastung und die scheinbar unüberwindbaren Widersprüche erschweren oft eine fortschrittliche Praxis.
Professor Richardson weist darauf hin, dass in dem überwiegend risikoscheuen Kontext der Hochschulbildung Mut gefragt ist. Sie erklärt, dass zwar viel für die Bewertung des Lernens und eine effektivere Nutzung von Bewertungen getan wurde, dass aber die Politik manchmal den Fortschritt der Studierenden blockieren kann.
Professor Richardson spricht über die moralische Panik in den Universitäten, die durch Chat GPT ausgelöst wurde und viele Institutionen dazu zwang, die Bewertungspraktiken in der gesamten Institution zu überprüfen, um die wahrscheinlichen Probleme/Risiken von Chat GPT zu berücksichtigen und zu überlegen, wie diese am besten entschärft werden können. Sie argumentiert jedoch, dass die meisten Menschen nicht betrügen wollen, einige werden es tun, aber die meisten wollen lernen und ihr Lernen nachweisen. Wie fast jeder im Berufsleben wissen wir, dass die Schüler große Sprachmodelle verwenden werden, die viele positive Eigenschaften haben, die in die Bewertungen eingebaut werden können.
Zum Beispiel, indem die Studierenden aufgefordert werden, große Sprachmodelle zu verwenden, um ein Artefakt zu erstellen und dieses Artefakt dann zu bewerten und in ihre eigene Arbeit zu integrieren. Dies zeigt den Studierenden gute Praxis und Pädagogik, da KI eine Tatsache des akademischen und beruflichen Lebens ist, und es fördert Vertrauen und Verantwortlichkeit.
Professor Richardson spricht über die Nudge-Theorie und darüber, wie kleine Aktivitäten zu größeren Veränderungen führen können, z. B. Gespräche mit Menschen über die Veränderungen, die sie gerne sehen würden, was ihr Traum ist und was jetzt getan werden kann. Sie erklärt weiter, dass die größte Wirkung erzielt wird, wenn man Studenten in diese Arbeit einbezieht und sie fragt, was für sie am nützlichsten sein wird, wenn sie in ihrem gewählten Fachgebiet tätig sind.
Ishan Kolhatkar beschreibt seine frühere Tätigkeit als Akademiker, bei der er gemeinsam mit den Lernenden ein Modul und eine Bewertung konzipierte und einer Kohorte Lernergebnisse vorgab und sie aufforderte, den Nachweis zu erbringen, dass sie diese erreicht hatten. Damit Veränderungen wirksam sind, müssen sich die Unternehmensleitung und die Befürworter der Initiative engagieren (Price, 2013). Daher ist es wichtig zu verstehen, mit wem diese Gespräche geführt werden müssen und welche Art von Gesprächen erforderlich ist.
Ishan wirft im Laufe des Gesprächs die Frage auf, wie wir die Aufsichtsbehörden davon überzeugen können, dass die Prüfungen von gleicher Integrität und Schwierigkeit sind , wenn wir dieses Maß an Flexibilität vorgesehen haben. Professor Richardson erklärt, dass wir noch daran arbeiten müssen, die Angleichung nachzuweisen, aber wenn der Kurs wirklich klare Lernergebnisse hat, sollte diese Angleichung möglich sein.
Haben Prüfungen einen Platz in einer ganzheitlicheren Bewertungsstrategie?
Wenn eine Prüfung eine angemessene Bewertung ist, dann hat sie auch ihren Platz. Lehrveranstaltungen oder eine kontinuierliche Bewertung können viele Möglichkeiten zur Bewertung des Lernens bieten, und es könnte sein, dass eine Prüfung als Bewertung des studentischen Lernens zu einem bestimmten Zeitpunkt in einem Lernprogramm das am besten geeignete Format ist.
Eine Prüfung könnte daher für bestimmte Punkte innerhalb einer kreativeren Palette von Bewertungen reserviert werden. Ein Historiker hat beispielsweise Zugang zu einer Fülle von Ressourcen, wenn er eine Museumsausstellung kuratiert und überlegt, wie er die Öffentlichkeit am besten einbinden und die Zusammenarbeit mit anderen Institutionen fördern kann. Wenn er sich jedoch mit einer anderen Institution trifft, um beispielsweise die gemeinsame Nutzung von Ressourcen zu erörtern oder darüber zu diskutieren, wie Ausstellungen miteinander verknüpft werden können, muss er Zugang zu umfassenden Kenntnissen des Themas, d. h. der Artefakte und ihrer Einordnung in einen soziokulturellen Kontext, haben.
Daher könnte ein vielfältiges Bewertungsmenü authentische Bewertungen wie die Entwicklung einer Ausstellung und damit verbundene Aktivitäten sowie eine Prüfung umfassen, die den Zugang zu Wissen über Geschichte und Artefakte innerhalb einer bestimmten Zeit erfordert. Obwohl das Prüfungsformat als unauthentisch angesehen werden könnte, wäre es in diesem Kontext gültig und authentisch, da es einen schnellen Zugang zu spezifischem Wissen erfordert.
Ein ganzheitlicherer Ansatz bei der Bewertung bedeutet wahrscheinlich, dass die Schüler mehr Wahlmöglichkeiten haben, wie sie bewertet werden, und es sollte bedacht werden, dass eine Prüfung auch das Bewertungsformat der Wahl für Schüler sein kann, die gut mit Prüfungen umgehen können und sich damit wohl fühlen.
Es ist auch der Fall, dass bestimmte Aufsichtsbehörden den Nachweis verlangen, dass eine Prüfung sicher durchgeführt wurde und dass absolute Gewissheit besteht, dass es sich um die eigene Leistung des Schülers handelt, ohne externe Unterstützung, außer gegebenenfalls durch autorisierte Ressourcen. Eine ganzheitlichere oder authentischere Bewertung bietet Raum für Unterstützung, sei es durch KI oder eine andere Person. Eine Prüfung, die unter sicheren Bedingungen durchgeführt wird, ist wohl die einzige Möglichkeit, absolut sicher zu sein, dass es sich bei der Leistung um die eigenen, nicht unterstützten Bemühungen des Schülers handelt.
Professor Richardson stimmt bis zu einem gewissen Grad mit der Behauptung überein, dass ganzheitlichere Bewertungen bedeuten, dass Studierende KI einsetzen können, erinnert uns aber daran, dass die Menschen in der Vergangenheit immer Angst vor Veränderungen hatten und in Zeiten großer Veränderungen dazu neigen, sich auf die negativen Auswirkungen zu konzentrieren. Wenn wir in diesem Kreislauf gefangen sind, ist es ein guter Zeitpunkt, um zu ihrer Kernfrage zurückzukehren: „Was möchte ich darüber wissen, was meine Studenten wissen, wenn sie meinen Studiengang abgeschlossen haben?“ und darüber nachzudenken, ob dies auch den vernünftigen Einsatz von KI einschließen kann, wo dies angemessen ist.
Sollten Prüfungen aus der Bewertungspraxis heraus konzipiert werden?
Die Qualitätssicherung in den Einrichtungen wird sich zweifellos weiterhin auf die überprüfbaren Ergebnisse der Bewertung konzentrieren und verlangen, dass die für summative Zwecke verwendeten Bewertungen solide sind und mit der Praxis innerhalb der Einrichtung und in anderen Hochschuleinrichtungen übereinstimmen. Dies wiederum führt dazu, dass der Schwerpunkt auf leicht quantifizierbare Messgrößen für die Ergebnisse der Studierenden und die Rechenschaftspflicht gelegt wird, was Änderungen bei traditionelleren Prüfungen hemmen kann. Dies bedeutet jedoch nicht, dass Bewertungen nicht ganzheitlicher gestaltet werden können, sondern nur, dass, wie Professor Richardson feststellt, die Lernergebnisse eindeutig identifizierbar und nachweisbar sein müssen.
Im Rahmen eines gemischten und abwechslungsreichen Prüfungsprogramms, das den Schülern reichlich Gelegenheit bietet, ihre Fachkenntnisse unter Beweis zu stellen, haben Prüfungen nach wie vor ihren Platz, wenn es für die Schüler angemessen ist, ihr Wissen in einem begrenzten Umfeld zu demonstrieren. Wo Prüfungen jedoch nicht angebracht sind, warnt uns Professor Richardson, dass sie sich bekanntermaßen auf die Leistungen von Schülern aus bestimmten Milieus auswirken und diejenigen begünstigen, die einfach besser in Prüfungen sind und seit Beginn ihrer Schulausbildung davon profitiert haben.
Es gibt einen Platz für Prüfungen im Rahmen einer ganzheitlichen Bewertung, aber es sollte darauf geachtet werden, dass sie angemessen und ohne Schaden für die Schüler eingesetzt werden.
Fiona Orel, Senior Account Manager UK&I, Senior Fellowship Advanced HE und ehemalige Pädagogin
Ressourcen
- Instructure-Webinar „The Exam is Dead, but is it Really?“ (12. November 2024) Veranstaltet von Sidharth Oberoi, Vice President International Product Strategy bei Instructure, mit Ishan Kolhatkar, Global Client Evangelist bei Inspera im Gespräch mit Dr. Mary Richardson, Professorin für Bildungsbewertung an der Fakultät für Bildung und Gesellschaft der UCL.
- Carless, D. (2015). Excellence in University Assessment. Oxon: Routledge. Vorschau verfügbar.
- Flint, N. und Johnson, B. (2011). Towards Fairer University Assessment: Recognizing the Concerns of Students. London: Routledge. Vorschau verfügbar.
- Hounsell, D., Xu, R. und Tai, C. (2007). Integrative Bewertung: Ausgewogene Bewertung von und für das Lernen. Leitfaden Nr. 2. Gloucester: The Quality Assurance Agency for Higher Education. Integrative Assessment: Balancing assessment of and assessment for learning – guide no 2. Zugriff am 13. November 2024.
- Preis, M. (2013). Förderung des institutionellen Wandels: Overview. In S. Merry, M. Price, D. Carless und M. Taras (Hrsg.), Reconceptualising Feedback in Higher Education: Developing Dialogue with Students (S. 145-146). London: Routledge. Vorschau verfügbar.