Retorio: Wenn die KI Beurteilungsfehler simuliert

Das Start-up Retorio verspricht Hilfe bei der Personalauswahl. Aus einem Video des Bewerbers erstellt eine KI ein Persönlichkeitsprofil. Doch die Software hat einen erheblichen Haken und auf weitere Nachfragen hüllt sich der Gründer in Schweigen.

Endlich Schluss mit den aufwändigen Vorstellungsgesprächen. Damit lockt das Münchner Start-up Retorio. Über einen Onlinelink schickt der Bewerber ein kurzes Video über sich, in dem erklärt, was er kann, warum er sich auf die Stelle bewirbt oder andere Punkte, die er gern über sich mitteilen möchte.

Dank Künstlicher Intelligenz (KI) analysiert die Software Stimme, Sprache, Gestik und Mimik und erstellt daraus ein Persönlichkeitsprofil. Das wiederum kann der potenzielle Arbeitgeber mit dem jeweiligen Jobprofil abgleichen und den am besten geeigneten Bewerber auswählen.

Retorio verwendet das Big Five-Modell zur Persönlichkeitsanalyse, das als wissenschaftliches fundiertes Persönlichkeitsmodell gilt und nach dem sich die Persönlichkeit von Menschen in fünf Faktoren beschreiben lässt: Offenheit, Gewissenhaftigkeit, Extraversion, Verträglichkeit und Neurotizismus.

Laut eigenen Angaben auf der Website arbeitet das Start-up bereits mit DAX-Unternehmen zusammen, auf der Website stehen bzw. standen Lufthansa, BMW-Group, ADAC, Personio, Xing und das Mietwagen-Vergleichsportal HappyCar. „Learn how HappyCar improved their recruiting process with retorio. They saved more than 50% in recruiting time“ heißt es dazu.

Gegründet wurde Retorio Mitte 2018 im Rahmen eines sogenannten Exist-Stipendiums mit Unterstützung der Technischen Universität München (TUM) Das Bundesministerium für Wirtschaft und Energie (BMWi) förderte das Team mit 130.000 Euro.

Gründer von Retorio sind Christoph Hohenberger und Partick Oehler. Hohenberger hat ein Fachhochschulstudium in Wirtschaftspsychologie absolviert und 2018 an der TUM zum Thema „Persönliche autonome Zukunft: Die Rolle von Emotionen, Kognitionen und individuellen Werten im Adoptionsprozess von autonomen Autos“ an der Fakultät für Wirtschaftswissenschaften bei TUM-Professorin Isabell Welpe promoviert. Auch Patrick Oehler ist promovierter Wirtschaftswissenschaftler. Auf der Website prangt ein Zitat von TUM-Professorin Welpe zur Forschung von Retorio an den Fakultäten für Psychologie und Computerwissenschaften, wobei Welpe selbst keine Psychologin ist.

Retorio simuliert Bewertungsfehler

Laut Retorio geht es bei dem erstellten Persönlichkeitsprofil um den Eindruck, den ein Mensch auf andere Menschen macht, wie die Gründer gegenüber dem Bayerischen Rundfunk erklärten. Der Algorithmus sei darauf trainiert, die Wirkung von Personen zu messen. Also nicht die messbare Persönlichkeit einer Person, sondern die Einschätzung der Persönlichkeit dieser Person durch andere. Dabei ist jedoch bekannt, dass jeder Mensch Bewertungsfehlern unterliegt. So werden etwa gutaussehende Menschen als intelligenter und große Menschen als führungsstärker wahrgenommen. Im Klartext: Bei Retorio simuliert die KI die Bewertungsfehler der Beobachter.

Der offenkundige Konstruktionsfehler liegt bereits darin, wie die Algorithmen trainiert wurden. Dabei hat das Start-up seine KI mit Videos von mehr als 12.000 Personen verschiedenen Alters, Geschlechts und unterschiedlicher Herkunft trainiert. Und rund 2.500 Menschen haben bewertet, wie diese Personen auf sie wirken und zwar im Hinblick auf die Persönlichkeitsdimensionen aus dem Big Five-Modell.

Doch wie lief das konkret ab? Wurden die Faktoren mit einem Fragebogen abgefragt oder werden die Beobachter direkt gefragt, wie offen, stabil gewissenhaft, extra- bzw. introvertiert und verträglich sie die zu Beurteilenden einschätzen? Wie viele Videos bewertet ein Beurteiler hintereinander? Wie sah konkret die Beurteilungssituation aus? Wer hat wie viele Personen bewertet? Gibt es Überschneidungen? Antworten bleibt Gründer Christoph Hohenberger auch auf mehrfache Anfrage schuldig. Das gilt auch für weitere Fachfragen zur Diagnostik. Geschickt hat er lediglich ein sechsseitiges Dokument, das die Vorzüge von Retorio belegen soll.

Doch das enthält bei genauerer Lektüre so manche fragwürdige Aussage. So wird etwa lobend hervorgehoben, dass die Software eine Übereinstimmung von 90 Prozent mit den Beurteilungen der Bewerter erreicht. Das ist banal, da die Algorithmen ja auf der Basis ihrer Bewertungen trainiert wurden.

Weiter werden Studien von Peer-Ratings genannt, die belegen sollen, wie valide (richtig) die Einschätzung der Persönlichkeit von Peers, also Freuden, Kollegen und Vorgesetzten ist. Natürlich können diese eine Person gut einschätzen, weil sie diese kennen. Aber genau das ist bei der Software nicht der Fall. In den Datensätzen, an denen die KI lernt, werden die Einschätzungen von völlig fremden Menschen herangezogen. Die Studien zur Validität von Peer-Ratings taugen also nicht als Beleg für die Aussagekraft der Fremdurteile, die deutlich geringer sein dürfte. Das gilt auch für andere der erwähnten Studien. Auch hier hinkt der Vergleich mit der KI von Retorio.

Auf Seite 2 des Dokuments wird davon gesprochen, dass Persönlichkeitsmerkmale in Sekunden allein auf der Grundlage der Wahrnehmung von Gesichtern richtig eingeschätzt werden können. Leider wird nichts über die Größe des Effektes in diesen Studien gesagt. Zudem werden hier nur einzelne Primärstudien benannt. Eine aktuelle Metaanalyse von Breil et al (2020) deutet eher darauf hin, dass nicht mit hohen Effekten zu rechnen ist und dass die visuellen Informationen eher überschätzt werden. All das lenkt aber vor der eigentlichen Frage ab: Wie ist es um die (prognostischen) Validität der Softwarelösung bestellt?

Es fehlen Angaben zur Retest-Reliabilität (Stabilität) der gestellten Diagnosen. Stattdessen wird mit der Intraklassen-Korrelation argumentiert. Was hier genau berechnet wurde, ist nicht nachvollziehbar. Wenn man die Werte aber wie einen herkömmlichen Reliabilitätskoeffizient interpretiert, liegen sie unter dem, was man von einen einfachen Persönlichkeitsfragebogen erwarten würde (mindestens .70).

…