Die Journalismus-Professorin Hilke Schellmann hat ein Buch geschrieben über KI bei der Bewerberauswahl in den USA und verschiedene KI-Tools ausprobiert. Die meisten waren ungenau oder fragwürdig. Manche basierten sogar auf Pseudowissenschaft.
Wie verbreitet ist KI in den USA inzwischen bei der Bewerberauswahl?
Es gibt keine offiziellen Zahlen und wir wissen es nicht genau. Aber aus Umfragen und aus meiner Recherche, bei der ich mit allen großen Plattformen wie Indeed, Linkedin, Monster und anderen gesprochen habe, kenne ich das Ausmaß. Die benutzen alle KI. Also jeder Bewerber, der seine Bewerbung dort hochlädt, wird durch ein KI-Tool analysiert. Schon vor ein paar Jahren hat eine Umfrage gezeigt, dass 99 Prozent der Fortune-500-Unternehmen, Algorithmen und KI in ihren Bewerbungsprozessen benutzen. Wir wissen auch, dass große Unternehmen wie Workday, die für viele große Unternehmen und Universitäten die HR-Systeme betreiben und verwalten, diese Tools anbieten.
Die Angebote für entsprechende KI-Tools boomen derzeit. Helfen sie den Unternehmen wirklich?
Ja, der Markt für HR Tech wächst exponentiell. Schätzungen sprechen von mehr als 760 Milliarden Dollar im globalen Recruiting-Markt. Die Anbieter – oftmals Start-ups – stehen natürlich unter Druck und müssen möglichst schnell viel verkaufen. Aber oft wissen die Verkäufer selbst nicht, was eigentlich gemessen wird oder ob es funktioniert. Und sie treffen auf HR-Manager, die auch unter Druck stehen, den Bewerbungsprozess möglichst effizient zu machen. Und dazu kommt: Wenn HR-Mitarbeiter merken, dass ein KI-Tools nicht funktioniert, verschweigen sie es aus Angst vor dem Imageschaden für das Unternehmen und Klagen. Und Außenstehende, die vielleicht die Systeme prüfen, müssen Verschwiegenheitsklausel unterschreiben. Das hilft leider Scharlatanen.
Sie haben verschiedene Verfahren getestet von der Analyse des Lebenslaufs, der sozialen Medien, des Gesichtsausdrucks und der Stimme bis hin zu Spielen. Was ist Ihr Resümee?
Alle diese KI-Tools haben sich letztlich als ungenau oder sogar fragwürdig erwiesen. Ich habe Tools ausprobiert und auch mit Arbeitsrechtlern gesprochen, die manchmal dazu gezogen werden, wenn große Firmen von Anbietern solche Systeme kaufen wollen. Die haben mir berichtet, was sie gefunden haben, Zum Beispiel bei einem Tool Resume Screener, dass Lebensläufe analysiert. Die KI analysiert alle Wörter im Lebenslauf, auch Wörter, die nichts mit dem Job zu tun haben. Der Anwalt hat herausgefunden, dass die KI den Namen Thomas als statistisch relevant für erfolgreiche Kandidaten eingestuft hat. Wenn der Name Thomas bei einer Bewerbung vorkommt, kriegt der Kandidat Pluspunkte, obwohl das nichts mit der Qualifikation für den Job zu tun hat. Aber ein Computersystem weiß das natürlich nicht. Das wird darauf trainiert ist, alle Informationen zu berücksichtigen, die statistisch relevant sind. Manche Firmen schwärzen den Namen, den Wohnort, Geschlecht und trotzdem kommen immer wieder diskriminierende Kriterien rein. So bekommt jemand, der Baseball als Hobby angibt, bei einem Tool mehr Punkte als jemand, der Softball genannt hat. In den USA ist dabei völlig klar: Männer mögen eher Baseball, Frauen Softball. Da kommt die Geschlechterdiskriminierung wieder durch die Hintertür.
Die KI sucht also nach statistisch relevanten Kriterien, auch wenn sie völlig unsinnig sind?
Wenn man Videointerviews analysieren würde, wäre es sicher auch statistisch relevant, dass Menschen mit braunen Haaren öfter einen Job bekommen, weil es einfach mehr Menschen mit braunen Haaren gib. Das heißt aber nicht, dass sie besonders qualifiziert für einen Job sind. Das ist halt das Problem, wenn man alle Variablen einbezieht. Die KI weiß nicht, was wirklich relevant ist. Matthew Scherer, Berater am Center for Democracy and Technology, hat einmal sagt: Ein Recruiter überfliegt einen Lebenslauf in sechs bis sieben Sekunden, aber in der Zeit erkennt er das Wesentliche. Die KI „liest“ jedes Wort und zieht daraus ihre – manchmal völlig unsinnigen – Schlüsse, die statistisch relevant sind, aber nichts mit dem Job zu tun haben.
Welche Erfahrung haben Sie mit KI-Anwendungen gemacht, die Sprachkenntnisse testen sollten?
Da habe ich das Tool Curious Thing AI getestet. Das sollte herausfinden, wie gut Bewerber Englisch sprechen. Das ist für Firmen sinnvoll, die vielleicht Mitarbeitende für das Call Center in anderen Ländern suchen. Da musste ich in einem Telefoninterview mit einer KI verschiedene Fragen beantworten. Und habe 8,5 von 9 Punkten bekommen. Da war ich richtig stolz, schließlich ist Englisch nicht meine Muttersprache. Dann dachte ich, wenn ich jetzt auf Deutsch beantworte, bekomme ich auf jeden Fall eine Fehlermeldung. Also habe ich auf Deutsch geantwortet, aber nicht auf die Fragen, sondern habe den Wikipedia-Eintrag für Psychometrie vorgelesen. Für den Tests habe ich 6 von 9 Punkten bekommen „Englisch: kompetent,“ obwohl ich kein Wort Englisch gesprochen habe. Dasselbe habe ich mit dem Tool Myinterview gemacht, das die Wörter, die ich spreche und die Intonation meiner Stimme bewertet. Die haben eine Transkription generiert, die ein totales Kauderwelsch war. Aber ich habe 73 Prozent Eignung für den Job bekommen, bin also als relativ hoch qualifiziert eingestuft worden. Ich habe dann mit den Entwicklern gesprochen. Sie konnten nicht beantworten, wie Ergebnisse zustande gekommen sind. Wenn ich als Laie solche Systeme ad absurdum führen kann und zeigen kann, dass sie nicht funktionieren, müssen wir uns überlegen, was wir da benutzen und ob das fair ist.
Ein weiteres Beispiel ist HireVue, das Firmen wie Unilever und Hilton genutzt haben und nutzen. Dort beantwortet man in einem Video Fragen von einer KI. Wie wird das ausgewertet?
Heute bewerten sie die Wörter, die Bewerber benutzen. Die Sprache wird transkribiert. Die Analyse kann sehr allgemein sein oder auf ein Unternehmen bezogen. Also welche Wörter haben ehemalige Bewerber und heute erfolgreiche Mitarbeiten benutzt, um Teamfähigkeit zu zeigen. Werden dieselben Wörter genutzt, zeigt das System, das ist jemand, der wahrscheinlich genauso qualifiziert ist. Experten sehen solche „out of the box“ KIs kritisch. Denn jede Jobgruppe und jeder Job ist anders. Ich kann nicht jeden Call-Center-Mitarbeitenden in verschiedenen Unternehmen nach Schema X auswählen. Denn jedes Call Center arbeitet anders.
Früher hat HireVue Bewerbende sogar nach Gesichtsausdrücken bewertet.
Sie haben eine Facial Analysis gemacht, also emotionale Gesichtsausdrücke analysiert, plus Intonation der timme und die Wörter, die die Bewerbenden benutzt haben. Die Software hat dann die Videointerviews mit denen von Mitarbeitenden während ihres Bewerbungsprozesses verglichen. Das Problem ist, es gibt keine wissenschaftlichen Studien dazu, welche Gesichtsausdrücke in Bewerbungsgesprächen zeigen, dass wir erfolgreich im Job sind. Da wurde geschaut, sind die Mundwinkel hoch? Dann hat das KI-Instrument gesagt, das ist wahrscheinlich ein Lächeln und die Person ist glücklich. Sind die Augenbrauen zusammengezogen, ist sie ärgerlich. Problematisch ist, dass die Technologie zwar erkennt, dass eine Person die Mundwinkel hochzieht und lächelt, aber das heißt nicht, dass jemand auch glücklich ist. Gerade in Bewerbungsgesprächen ist man meist ziemlich nervös, aber man will nicht so rüberkommen und lächelt daher. Ich habe auch mit Psychologen gesprochen, die seit Jahren dazu forschen. Viele Menschen haben zu einem Gesichtsausd…
Bärbel Schwertfeger ist Diplom-Psychologin, seit 1985 freie Journalistin und Chefredakteurin von WIRTSCHAFTSPSYCHOLOGIE HEUTE.