Proctoring: Wie man Täuschungsversuche in Online-Tests erkennt

pixabay meminsito

Online-Leistungstests gehören längst zur Eignungsdiagnostik, insbesondere bei der Personalauswahl. Aber können Bewerbende dabei nicht einfach schummeln? Proctoring, also digitale Beaufsichtigung von Tests, schafft Abhilfe mit Vor- und Nachteilen.

Viele öffentliche Einrichtungen, darunter Hochschulen und Behörden, haben spätestens seit der Corona-Pandemie im Jahr 2020 mit einhergehenden Kontaktbeschränkungen auf Online-Tests umgestellt. Neben vielen Vorteilen, wie zum Beispiel der zeitlich und örtlich flexiblen Teilnahme, der Nachhaltigkeit durch Verzicht auf Anreisen sowie der optimierten Prozesse in der Auswertung, bestehen auch einige Nachteile bei Online-Tests. Insbesondere ist mögliches Täuschungsverhalten auf Seiten der Testteilnehmer*innen zu nennen, denn speziell, aber nicht nur, in so genannten „high-stake“ Situationen – zum Beispiel, wenn vom Testergebnis der Zugang zu einer angestrebten beruflichen Position abhängt – können die Kosten von Täuschungen sehr groß sein.

Welche Art von Täuschung gibt es?

Abbildung 1 stellt die wichtigsten Arten der Täuschung dar, besonders häufig kommt es zur Inanspruchnahme von unbefugter Hilfe bzw. Hilfsmitteln. Hierzu zählt etwa die Unterstützung durch Freund*innen oder Familienmitglieder sowie die Nutzung von Suchmaschinen oder KI-Anwendungen. Zum anderen ist mit Blick auf häufige Täuschungsformen der Identitätsbetrug zu nennen (Noorbehbahani et al., 2022).

Die Testleistung bei unbeaufsichtigten Online-Tests fällt im Durchschnitt höher aus als die bei beaufsichtigten Tests (Steger et al., 2020). Die Frage nach Gegenmaßnahmen ist vor diesem Hintergrund hochrelevant. 

Abb. 1: Übersicht der Täuschungshandlungen von Testteilnehmenden

Unbeaufsichtigte Online-Tests

In der Literatur werden einige Gegenmaßnahmen empfohlen, die Betrugsverhalten bei Online-Tests entweder verhindern oder aufdecken sollen. Die Wirksamkeit dieser Gegenmaßnahmen ist allerdings schwierig zu untersuchen, weswegen hierzu wenig empirische Befunde vorliegen. Gängig sind vor allem die Einladung der Teilnehmenden zu einem weiteren Vor-Ort-Test, die Abnahme einer Eigenleistungserklärung sowie Zeitbeschränkungen bei der Lösung der Aufgaben.

Die beiden ersten Maßnahmen zielen eher auf eine präventive und abschreckende Wirkung ab, deren Wirksamkeit bisher aber nicht empirisch gezeigt werden konnte. Insbesondere in einer Situation, in der Testteilnehmenden etwas zu gewinnen oder zu verlieren haben (high-stake), ist die Wirksamkeit der Maßnahmen daher in Frage zu stellen. Die Wirksamkeit der Zeitbeschränkung erweist sich ebenfalls als begrenzt. Insgesamt stellen weder die erneute Testung noch die Eigenleistungserklärung oder die Zeitbegrenzung für die Praxis der Personalauswahl demnach zufriedenstellende Gegenmaßnahmen bei Betrugsverhalten dar.

Was kann Proctoring?

Eine weitere, zunehmend verbreitete Gegenmaßnahme ist das Online-Proctoring. Mit diesem Begriff werden jegliche digitalen Formate der Prüfungsbeaufsichtigung bezeichnet, die zur Beibehaltung der Integrität der Beurteilung auch im Online-Kontext beitragen sollen und in unterschiedlichen Formen angeboten werden.

Grundsätzlich unterschieden werden kann zwischen live in-person remote proctoring (Online-Beaufsichtigung durch Personen) sowie Artificial Intelligence (AI) remote proctoring und damit der Online-Beaufsichtigung auf Basis künstlicher Intelligenz (Langenfeld, 2022).

Dabei gibt es je nach Anbieter viele Abstufungen in Hinsicht auf den Umfang der Beaufsichtigung: Angefangen mit minimalen Schutzmechanismen, beispielsweise lediglich einer Videoaufzeichnung der Testteilnahme, bis hin zur Live-Beaufsichtigung mit Video, Audio, Kontrollübernahme des Rechners und Interaktion der beaufsichtigenden Person mit den Testeilnehmenden (Langenfeld, 2022), ist vieles umsetzbar. Die technischen Möglichkeiten sind sehr vielfältig und werden auch in der Zukunft insbesondere mit Blick auf künstliche Intelligenz sicherlich noch wachsen. 

Welche Kriterien spielen eine Rolle?

Bartram (2006) hat mehrere Voraussetzungen genannt, die erfüllt sein müssen, damit Online-Tests sowohl aus Sicht der durchführenden Organisationen, der Testurheber als auch aus der Perspektive der Bewerbenden gewinnbringend eingesetzt werden können. Diese Voraussetzungen sind in Tabelle 1 aufgeführt und können auch in Bezug zu beaufsichtigten Online-Tests gesetzt werden. Damit bieten sie eine Basis zur Bewertung der technischen und inhaltlichen Möglichkeiten von Proctoring-Anbietern.

Die Bedürfnisse beider Seiten sind selbstverständlich ebenso für die jeweils andere Seite von Bedeutung, d.h. auch im Sinne der Außenwirkung ist es für die Organisation relevant, dass Testeilnehmende einen angenehmen Test erleben; aus Sicht der Testeilnehmenden ist gleichermaßen relevant, dass die Identität aller anderen Teilnehmenden gesichert werden kann, um den fairen Auswahlprozess nicht zu gefährden.

Tabelle 1: Kriterien für Online-Tests aus der Sicht von Organisationen und Testteilnehmenden

Weil die Teilnehmenden je nach Ort der Testteilnahme gegebenenfalls in ihrem höchst privaten Raum beobachtet werden und die Proctoring-Software gegebenenfalls auf dem eigenen Laptop heruntergeladen werden muss, stellt der Datenschutz ein zentrales Kriterium bei der Umsetzung von Online- Proctoring dar. Insbesondere der Einsatz von Proctoring-Software, die auf den Rechnern der Testteilnehmenden installiert werden muss, ist unter diesem Gesichtspunkt kritisch zu sehen: Viele Anbieter von Proctoring-Software haben ihre Sitze außerhalb der EU, was vermuten lässt, dass ihre Datenschutzmaßnahmen nicht konform mit der DSGVO (Datenschutz-Grundverordnung) sind und die Daten beispielsweise nicht auf Servern in Deutschland oder der EU gespeichert werden.

Weitere Bedenken beziehen sich auf die Nutzung von Online-Proctoring-Software auf Basis von künstlicher Intelligenz und maschinellem Lernen. Der bisherige Einsatz von maschinellem Lernen hat in unterschiedlichen Kontexten deutlich gezeigt, dass die Nutzung, obwohl in den meisten Fällen effektiv und effizient, zu Verzerrungen und Bias und damit zu Unfairness führen kann (z. B. sind Fälle dokumentiert, in denen schwarze Personen erheblich schwerer oder überhaupt nicht von Gesichtserkennungssoftware erkannt wurden (Chin, 2021). Ähnliches wird bei der Testung von behinderten und neurodivergenten Personen beobachtet (Swauger, 2020).

So ist grundsätzlich festzuhalten, dass KI-Systeme unbewusste Vorurteile aus den Trainingsdaten übernehmen und so bestimmte Gruppen benachteiligen können oder aber bestimmte Faktoren (z.B. im Verhalten) von der Software möglicherweise falsch interpretiert werden. Die KI kann in großen Datenmengen scheinbare Zusammenhänge aufdecken, die unter Umständen wenig bis gar keine praktische Relevanz haben (Schwertfeger, 2024). Wichtig ist daher, dass Trainingsdaten regelmäßig geprüft und KI-Modelle auf Fairness getestet werden. Zudem sollten KI-Entscheidungen in einem zweiten Schritt von Menschen überprüft werden.

Ein Beispiel aus dem US-amerikanischen Markt, welches weltweit Anwendung findet und eine bewährte Kombination aus KI und menschlicher Kontrolle darstellt, ist der der Duolingo English Test (DET). Künstliche Intelligenz ist der Kern des Duolingo-Proctorings: Algorithmen des maschinellen Lernens analysieren beispielsweise die Augenbewegungen der Testteilnehmenden, erkennen Gesichter und überwachen die Umgebung, um sicherzustellen, dass keine unerlaubten Hilfsmittel verwendet werden.

„Computer Vision“, was vielleicht am besten mit „computer-basiertes Sehen“ übersetzt werden kann, ermöglicht es dem System, visuelle Informationen zu interpretieren, während natürliche Sprachverarbeitung möglicherweise eingesetzt wird, um gesprochene Antworten zu analysieren und richtig zuzuordnen.

Zusätzlich überprüft ein Team von Prüfern, sogenannte Proctors, stichprobenartig die Tests sowie deren Ergebnisse, um die Qualität der automatischen Beaufsichtigung zu garantieren.

Die Vorteile dieser KI-basierten Beaufsichtigung liegen auf der Hand: Sie ermöglicht eine objektivere und effizientere Bewertung als eine rein menschliche Beaufsichtigung. Zudem kann sie auf eine große Anzahl von Testpersonen skaliert werden. Allerdings wirft, wie bereits diskutiert, der Einsatz von KI auch Fragen auf, insbesondere im Hinblick auf den Datenschutz und die potenzielle Entwicklung von Algorithmen-Verzerrungen. Bei allem Für und Wider ist klar: Wenn Anbieter zufriedenstellende Antworten auf Fragen rund um Datenschutz, Algorithmen-Fairness und ethische Implikationen finden, dann kann KI-basierte Beaufsichtigung den Prozess enorm verschlanken und eine echte Bereicherung für die Beaufsichtigung von Online-Tests sein.

Fazit: Proctoring in der Personalauswahl?!

Im Gesamtblick ist festzustellen, dass die Möglichkeit der digitalen Beaufsichtigung
(Proctoring) von Online-Tests eine sinnvolle Ergänzung in Personalauswahlverfahren darstellt, um Täuschungsversuche zu minimieren und die Integrität des Bewerbungsprozesses zu schützen. Die Vielfalt der technischen Möglichkeiten, wie beispielsweise der Einsatz von Künstlicher Intelligenz, sowie der am Markt verfügbaren Angebote macht es erforderlich, eine gezielte und an rechtlichen, wirtschaftlichen und handlungsethischen Kriterien geleitete Auswahl der Testdienstleister und Testverfahren vorzunehmen.

Weitere Literatur:

Bartram, D. (2006). The Internationalization of Testing and New Models of Test Delivery on the Internet. International Journal of Testing, 6(2), 121–131. https://doi.org/10.1207/s15327574ijt0602_2

Chin, M. (2021). ExamSoft’s proctoring software has a face-detection problem. The Verge. Verfügbar unter: https://www.theverge.com/2021/1/5/22215727/examsoft-online-exams-testing-facial-recognition-report

Duolingo (2021). Duolingo English Test: Security, Proctoring, and Accommodations. Verfügbar unter: https://duolingo-papers.s3.amazonaws.com/other/det-security-proctoring-whitepaper.pdf

Langenfeld, T. (2022). Internet-based Testing: A Solution for the New Normal. Journal of Applied Testing Technology, 23, 5–14.

Noorbehbahani, F., Mohammadi, A. & Aminazadeh, M. (2022). A systematic review of research on cheating in online exams from 2010 to 2021. Education and Information Technologies, 27(6), 8413–8460. Verfügbar unter: https://doi.org/10.1007/s10639-022-10927-7

Schwertfeger, B. (2024). Personalauswahl: von der KI aussortiert. Wirtschaftspsychologie heute. Verfügbar unter: https://www.wirtschaftspsychologie-heute.de/bewerberauswahl-mit-ki-fragwuerdig-und-ungenau/

Steger, D., Wilhelm, O. & Gnambs, T. (2020). A Meta-Analysis of Test Scores in Proctored and Unproctored Ability Assessments. European Journal of Psychological Assessment, 36(1), 174–184. https://doi. org/10.1027/1015-5759/a000494

Swauger, S. (2020). Software that monitors students during tests perpetuates inequality and violates their privacy. MIT Technology Review. Verfügbar unter: https://www.technologyreview.com/2020/08/07/1006132/ software-algorithms-proctoring-online-tests-ai-ethics

Dieser Beitrag ist in einer längeren Version bereits auf der Website www.dgp.de veröffentlicht worden.

Dr. Anna-Lena Jobmann, Diplom-Psychologin in der Abteilung Forschung & Entwicklung bei der Deutschen Gesellschaft für Personalwesen e. V. (dgp) in Berlin

Amelie Kleinmanns, M.Sc., Psychologin in der Abteilung Forschung & Entwicklung bei der Deutschen Gesellschaft für Personalwesen e. V. (dgp) in Düsseldorf

Diskutieren Sie mit