Wissenschaft versus KI – Eignungsdiagnostik quo vadis?

Fotolia

Während die Wissenschaft eine evidenzbasierte Eignungsdiagnostik bietet, versprechen technologiebasierte Assessments unter Nutzung von Künstlicher Intelligenz einen Paradigmenwechsel in der Personalauswahl. Wer wird diesen Wettkampf gewinnen? Ein Überblick über Potenziale und Limitationen.

Intelligenzmessung über ein Smartphone-Spiel? Persönlichkeitserkennung per Sprachanalyse? Fähigkeitsbeurteilung anhand von WhatsApp-Sprachnachrichten? Was vor wenigen Jahren wie Zukunftsmusik klang, ist heute in vielen Unternehmen salonfähig geworden. Angetrieben durch die Digitalisierung scheint sich ein Paradigmenwechsel in der Personalauswahl abzuzeichnen. Künstliche Intelligenz (KI), maschinelles Lernen, Big-Data-Algorithmen – die Nutzung neuer Technologien im Recruiting verspricht laut Anbietern eine valide Bewerber-Selektion, hohe Effizienzgewinne und eine ansprechende Candidate Experience.

Auf der anderen Seite bietet die wissenschaftliche Eignungsdiagnostik seit Jahren fundierte, nach strengen Kriterien entwickelte Auswahlverfahren. Dazu gehören allen voran psychometrische Tests zur Erfassung der kognitiven Leistung und Persönlichkeit, die sich in zahlreichen Studien als evidenzbasierte Instrumente für die Vorhersage beruflichen Erfolgs bewiesen haben. In der Unternehmenspraxis haben sich diese trotz großer Bemühungen immer noch nicht flächendeckend durchgesetzt. Nun drängen KI-basierte Verfahren offensiv auf den Markt und locken mit (auf den ersten Blick) attraktiven Alternativen. Vor dem Hintergrund eines zunehmend anspruchsvolleren Bewerbermarkts müssen sich psychometrische Tests daran messen, wie sie den Spagat zwischen Diagnostik-Qualität und Candidate Engagement meistern.

Entwicklungen im Markt für Assessments

ANZEIGE

Wohin entwickelt sich die Eignungsdiagnostik? Die unten abgebildete Matrix systematisiert den Assessment-Markt anhand von zwei Dimensionen, die auf zentrale Fragen aus Sicht des Unternehmens („Wie finde ich den passenden Mitarbeiter?“) und des Bewerbers („Wie wird das Assessment für mich ablaufen?“) eingehen.

Auf der X-Achse ordnet die Matrix die Verfahren nach dem Grad ihrer Assessment Innovation ein. Links sind Verfahren zu finden, die primär nach wissenschaftlichen Prinzipien entwickelt werden und strenge eignungsdiagnostische Kriterien erfüllen. Rechts lassen sich technologiebasierte Verfahren verorten, die auf den neuen Möglichkeiten der KI aufbauen. Die Achse ist als Kontinuum zu verstehen: Je weiter man sich von links nach rechts bewegt, desto disruptiver (und im Umkehrschluss: weniger gut erforscht) ist der diagnostische Ansatz.

Auf der Y-Achse differenziert die Matrix nach dem Fokus auf die Candidate Experience. Bei den Verfahren in den unteren Feldern steht das Ziel, dem Bewerber ein angenehmes Assessment-Erlebnis zu bereiten, implizit im Fokus. Es werden nur Hygiene-Faktoren berücksichtigt, die Minimal-Ansprüchen genügen, aber ansonsten nicht gesondert auf das Konto der Candidate Experience einzahlen (z. B. Gewährleistung einer angemessenen Bearbeitungszeit). In den oberen Feldern befinden sich Verfahren, die durch ihre Gestaltung des Assessments explizit das Bewerber-Erleben im Fokus haben. Auch diese Achse bildet ein Kontinuum ab: Je weiter man sich von unten nach oben bewegt, desto mehr werden in Ergänzung zu einer „harten“ Diagnostik auch für das Bewerbererleben „weiche“ Elemente eingebaut.

Assessment Trends (Grafik: Jungbauer)

In der resultierenden Vier-Felder-Matrix lassen sich vier große eignungsdiagnostische Trends einordnen:

Trend 1: Professionalisierung der Auswahl. Damit ist der zunehmende, u.a. durch die DIN 33430 (Anforderungen an berufsbezogene Eignungsdiagnostik) vorangetriebene Einsatz von wissenschaftlich fundierten und durch unabhängige Forschung abgesicherten Verfahren gemeint – Erfüllung anspruchsvoller Gütekriterien (Validität, Reliabilität, Objektivität) inklusive. Beispiele sind psychometrische Tests (kognitive Leistungs-, Persönlichkeits- und Situationsbeurteilungstests), im „Offline“-Sinn standardisierte Interviews oder methodisch sauber entwickelte Assessment Center. Zentrales Merkmal ist die Evidenz, z. B. der metaanalytische Befund, dass kognitive Fähigkeiten der stärkste Einzelprädiktor beruflicher Leistung sind (Schmidt, Oh, & Shaffer, 2016).

Trend 2: Digitalisierung der Auswahl. Dieser Trend beschreibt die verstärkte Nutzung digitaler Formate bei der Durchführung von Assessments. Es handelt sich um Verfahren, die im Kern dem wissenschaftlichen Ansatz (Trend 1) entsprechen, aber dem Bewerber eine andere Verpackung bieten. Ein Beispiel sind zeitversetzte Video-Interviews, die den Grundregeln standardisierter Interviews folgen (gleiche Fragen in gleicher Reihenfolge, Einsatz von Verhaltensankern, Beurteilung durch mehrere Assessoren), den Prozess aber in eine digitale Form gießen, aus der der Bewerber Nutzen ziehen soll (z. B. größere zeitliche Flexibilität).

Trend 3: Gamifizierung der Auswahl. Unter Gamifizierung wird die Anwendung spielerischer Elemente im Assessment verstanden. Beispielsweise durchläuft der Bewerber auf einem Smartphone eine Reihe von Spielen, in denen er Punkte sammeln kann und die somit Aufschluss über bestimmte Leistungsindikatoren geben, z. B. analytische Fähigkeiten. In der Vier-Felder-Matrix nehmen solche Mobile Games eine Sonderstellung ein und sind je nach Format Feld 2 oder Feld 3 zuordenbar: Während Gamified Assessments echte psychometrische Verfahren spielerisch anreichern (= wissenschaftsbasiert), sammeln Game-Based Assessments neben Leistungsdaten zusätzliche Informationen zum Spielverhalten (z. B. Reaktionszeiten), aus denen anhand von KI weitere Erkenntnisse, etwa zu Persönlichkeitseigenschaften, gewonnen werden sollen (= technologiebasiert).

Trend 4: Algorithmisierung der Auswahl. Algorithmisierung bezieht sich auf die Durchdringung des Assessment-Markts mit KI-basierten Lösungen, die anhand Methoden des maschinellen Lernens prädiktive Analysen großer Datensätze ermöglichen. Ihr Einsatz erfordert das Trainieren der KI anhand einer Stichprobe von bestehenden Mitarbeitern. Die KI sammelt zig-tausende Datenpunkte pro Individuum – je nach Verfahren können das beispielsweise Text-, Sprach- oder per Video-Interview aufgezeichnete (non)verbale Marker sein – und korreliert diese mit unternehmensspezifischen Leistungsdaten. Gefüttert mit genügend Daten identifiziert die KI die Merkmale, die zwischen durchschnittlichen Mitarbeitern und Leistungsträgern differenzieren. Sobald die KI die Erfolgsmuster der Leistungsträger „begriffen“ hat, kann sie Bewerber dahingehend einschätzen. Dem Recruiter wird ein Ranking übermittelt, geordnet nach den Personen, deren Verhaltensmuster denen der Referenzgruppe am ähnlichsten sind.

Wissenschaft vs. Technologie

Verfolgt man die zahlreichen Diskussionen um das Für und Wider der KI, scheint einem die Assessment-Welt in zwei Lager gespalten zu sein. Auf der einen Seite: die Bewahrer des wissenschaftsbasierten Ansatzes (Felder 1 und 2). Auf der anderen Seite: die Befürworter des technologiebasierten Ansatzes (Felder 3 und 4). Im Folgenden werden Potenziale und Limitationen dieser Ansätze differenziert beleuchtet.

Wissenschaftsbasierten Assessment

Die wissenschaftliche Eignungsdiagnostik baut auf Jahrzehnten solider Forschung auf und bietet viele Potenziale, die in der Auswahlpraxis stetig weiter erschlossen werden:

  • Valide Prognose beruflicher Leistung. Dank vergangener Forschung gibt es heute umfangreiches Wissen dazu, welche Auswahlverfahren funktionieren und welche nicht. Der in wissenschaftlichen Studien ermittelte Validitätskoeffizient ist ein empirisch abgesicherter Indikator der Prognosegüte, der die Frage „was sagt berufliche Leistung vorher?“ beantwortet.
  • Generalisierbarkeit der Erkenntnisse. Die Kenntnis um Validitäten ist auch deshalb von großer Relevanz für die Praxis, da aufgrund einer umfangreichen Datenbasis die gewonnenen Erkenntnisse grundsätzlich auf die meisten Unternehmen übertragbar sind.
  • Belastbarkeit der Aussagen. Wissenschaftliche Studien gelten zurecht als objektiv und punkten durch Transparenz und eine rigorose Methodik, die in der Industrie ihresgleichen sucht. Zwar geben manche Assessment-Anbieter zumindest Einblick in ihre eigenen Studien, doch ist hier unklar ob Unabhängigkeit oder die Einhaltung methodischer Qualitätsstandards gegeben ist.

Dennoch sollten sich Personalverantwortliche bewusst sein, dass auch wissenschaftliche Forschung nur ein Abbild der Realität liefert, das kritisch zu reflektieren ist:

  • Berufliche Leistung hat viele Facetten. In vergangenen Validitätsstudien wurde berufliche Leistung primär als globales Einzelmaß erfasst. Die Realität ist aber komplexer; erst nach und nach schließen wissenschaftliche Studien zu dieser Realität auf. Li, Barrick, Zimmerman und Chiaburu (2014) etwa untersuchten in einer Metaanalyse die Validität des Fünf-Faktoren-Persönlichkeitsmodells im Hinblick auf differenzierte Maße der beruflichen Leistung. Während sich Gewissenhaftigkeit wie in vergangenen Studien als wichtiger Prädiktor für das erfolgreiche Bewältigen von Arbeitsaufgaben bestätigte (.28), erwies sich überraschenderweise Verträglichkeit für das Unterlassen von unproduktivem Arbeitsverhalten als überaus bedeutsam (.51).
  • Nicht alles ist generalisierbar – der Kontext spielt eine Rolle. Die in Metaanalysen auf hohem Niveau aggregierten Daten verbergen, dass die Effektstärken beruflicher Erfolgsprädiktoren je nach Kontext einer nicht unerheblichen Schwankungsbreite unterworfen sein können. Eine Studie von Judge, Bono und Gerhardt (2002) lieferte den oft replizierten Befund, dass Extraversion ein wesentlicher Prädiktor von Führungseffektivität ist (.31). Was übersehen werden kann: Die nach Kontext differenzierten Validitätskoeffizienten reichen von .16 im öffentlichen Sektor über .25 in Unternehmen bis hin zu .40 in studentischen Stichproben.
  • Der Belastbarkeit der Aussagen sind methodische Grenzen gesetzt. Trotz strenger Qualitätsmaßstäbe ist die Aussagekraft von wissenschaftlichen Studien zu relativieren. Nicht selten werden studentische Stichproben genutzt, was Fragen der Repräsentativität aufwirft. An anderer Stelle werden Studienteilnehmer monetär incentiviert, was die Gefahr einer Selbstselektion birgt. Darüber hinaus wird zur Untersuchung der Forschungsfragen notgedrungen oft auf hypothetische Settings zurückgegriffen, obwohl Studien zeigen, dass sich das Bewerberverhalten in realen Situationen unterscheiden kann (Hausknecht, Day, & Thomas, 2004).

Technologiebasierte Assessments

Der Einsatz von KI im Assessment bietet aufgrund neuer technologischer Möglichkeiten neue Chancen für die Personalauswahl:

  • Datenbasierte Auswahlentscheidungen. KI kann in kürzester Zeit eine Unmenge an Daten analysieren, um statistische Zusammenhänge zu Tage zu fördern, die dem menschlichen Auge verborgen bleiben.
  • Eliminierung des menschlichen Bias. Eine rein auf Basis von Daten agierende KI nimmt die menschliche Subjektivität aus der Auswahlentscheidung. Ohne beispielsweise den unter menschlichen Entscheidern wirkenden similarity bias kann die Diversität der Belegschaft leichter erhöht werden.
  • Steigerung der Effizienz. KI kann die Arbeit von Recruitern wesentlich erleichtern. Es besteht ein hohes Substitutionspotenzial in Bezug auf einfache, aber zeitintensive Tätigkeiten, etwa beim Pre-Screenen von CVs. Indem KI den Recruitern eine datenbasierte, anhand von Bewerber-Rankings anschaulich visualisierte Grundlage für schnellere Entscheidungen liefert, wird weitere Zeit eingespart, die in andere Aktivitäten investiert werden kann (z. B. Beziehungsaufbau mit Talenten im Rahmen von Active Sourcing).

Gleichzeitig ist jede dieser Chancen mit Limitationen verbunden:

  • Auswahlqualität hängt von Analysequalität ab. KI-basierte Verfahren können große Datensätze in hoher Geschwindigkeit analysieren, hinterfragen die Ergebnisse aber nicht kritisch. Mit genügend Material lassen sich immer einzelne statistische Zusammenhänge aufspüren. Dabei besteht die Gefahr, dass ein Algorithmus Erfolgsmuster in den Daten aufspürt, die nicht kausal im Zusammenhang mit der beruflichen Leistung stehen. Eine bekannte Studie ermittelte einen statistischen Zusammenhang zwischen Intelligenz und der Präferenz für Pommes Frites in Spiralform (Kosinski, Stillwell, & Graepel, 2013) – eine Scheinkorrelation, die veranschaulicht welche Konsequenzen ein zu großes Vertrauen in die KI bei Auswahlentscheidungen nach sich ziehen kann: Werden die vom Algorithmus als relevant identifizierten Verhaltensmuster von ansonsten talentierten Personengruppen nicht geteilt, erhöht dies die Wahrscheinlichkeit für den Fehler 2. Art (die Ablehnung geeigneter Bewerber).
  • Neben dem menschlichen Bias gibt es algorithmischen Bias. Ein datenbasiertes System ist nur so gut wie die Daten, mit denen es gespeist wird. Auch ohne menschliche Beteiligung können unter Nutzung von KI Biases wirksam bleiben. Beispiele dafür gibt es zuhauf. Amazon musste eine KI-gesteuerte Bewerberauswahl aufgeben, nachdem herauskam, dass sie Frauen systematisch benachteiligte. Der Algorithmus hatte aus dem Datenpool mit überwiegend männlichen Mitarbeitern eine geringere Eignung für Bewerberinnen errechnet. Bei Xerox identifizierte die KI die geographische Entfernung zum Arbeitsplatz als Prädiktor für die Mitarbeiterfluktuation. Tatsächlich war diese Variable konfundiert – in größerer Entfernung fanden sich vor allem ärmere Wohngegenden – und diskriminierte somit bestimmte Bevölkerungsgruppen. Diese Beispiele verdeutlichen, dass KI die in einem Unternehmen existierenden Biases aufrechterhalten kann – was vor dem Hintergrund der algorithmischen „Black Box“ leicht unentdeckt bleibt.
  • Effizienz ist nicht Effektivität. Ein bisher wenig beachtetes Problem in der Nutzung neuer KI-Technologien ergibt sich aus Usability-Überlegungen. Die verbreitete Darstellung von Bewerber-Rankings anhand von Dashboards und Scores suggeriert dem menschlichen Gehirn möglicherweise größere Leistungsunterschiede zwischen Bewerbern, als sie in der Realität vorhanden sind (Bogen & Rieke, 2018). Ob die Auswahlentscheidung des Recruiters dadurch wiederum an Objektivität einbüßt – man denke an den aus der Politikforschung bekannten „ballot order effect“, demzufolge die an erster Stelle gelisteten Kandidaten auch eher in ein politisches Amt gewählt werden – ist ungeklärt.

Schlussfolgerungen

Daraus wird deutlich, dass es kein einfaches Votum bei der Frage „Wissenschaft oder Technologie?“ gibt. Ein anzustrebendes Ideal ist natürlich, das Beste aus beiden Welten – einen wissenschaftlichen Anspruch und die Möglichkeiten neuer Technologien – zu vereinen. In Summe lassen sich folgende Gestaltungsempfehlungen für die Praxis der Personalauswahl geben:

  • Wissenschaftliche Fundierung sicherstellen. Der Forderung nach einer evidenzbasierten HR-Funktion ist Nachdruck zu verleihen. Die Prinzipien der wissenschaftlichen Eignungsdiagnostik (z. B. Anforderungsbezug, Multimodalität, Erfüllung von Gütekriterien) bilden die solideste Grundlage für die Gestaltung der Personalauswahl. Genaueres Augenmerk kann in Zukunft auf den Transfer von Forschungsbefunden in die Praxis gerichtet werden. Fragen wie „was muss der neue Mitarbeiter bei uns leisten?“ (stellenspezifische Definition der beruflichen Leistung) und „kann er seine Stärken in unserer Unternehmenskultur ausspielen?“ (Einfluss des Kontexts) sind im Rahmen der Anforderungsanalyse explizit zu berücksichtigen. Darüber hinaus wird der „Sexyness“-Faktor eine wichtigere Rolle als früher spielen. Wissenschaftliche Assessments werden im Vergleich mit ihren KI-basierten Pendants bei der Candidate Experience nachlegen müssen. Eine vielversprechende Entwicklung ist die neue Generation psychometrischer Tests, die fluide Intelligenzkomponenten im gamifizierten Format erfassen. Solche Verfahren können vom Bewerber zügiger bearbeitet werden, sind unterhaltsamer und benachteiligen zudem Subgruppen weniger als bisherige Testformate (Bosco, Allen, & Singh, 2015).
  • Predictive Analytics Kompetenzen aufbauen. Da die Validitätsversprechen von Assessment-Anbietern nicht auf ihre Evidenz hin geprüft werden können, werden Unternehmen einen strategischen Vorteil bei der Gestaltung von Auswahlinstrumenten haben, wenn sie selbst zur Durchführung von Validitätsstudien fähig sind. Der große Vorteil: dem unternehmensspezifischen Kontext wird Rechnung getragen. Die Herausforderung: In der Praxis sind meist nur subjektive Leistungsdaten vorhanden (z. B. Einschätzungen von Vorgesetzten); daraus abgeleitete Auswahlmaßnahmen können strukturelle Biases aufrechterhalten. Hier gilt es, ein umfassendes Performance Management System mit multiplen objektiven und subjektiven sowie im Längsschnitt erfassten Leistungsdaten aufzubauen.
  • Datenbasierte Entscheidungen hinterfragen. Die Entwicklung von HR hin zu einer datengetriebenen Funktion ist eine sehr positive, erfordert allerdings einen sorgsamen Umgang mit den Daten. Das gilt im Übrigen sowohl für wissenschaftliche wie auch KI-gestützte Verfahren, da beide aus vergangenen Daten in die Zukunft extrapolieren. Vor dem Hintergrund sich schnell wandelnder Arbeitsanforderungen erfordert diese Vergangenheitsorientierung ein ständiges kritisches Hinterfragen, ob die gezogenen Schlüsse wirklich die richtige Richtung vorgeben.
  • Mut zum Experimentieren haben. Da wissenschaftliche Metaanalysen zu den neuesten Assessment-Tools erst in Jahren verfügbar sein werden und theoretisch geführte Diskussionen nicht immer zufriedenstellen, sei die Handlungsoption ans Herz gelegt „es einfach mal auszuprobieren“, d. h. etwa zu einer (nach Mindestanforderungen ausgewählten) KI-Technologie ein Pilotprojekt durchzuführen und es sorgfältig zu evaluieren. Im heutigen Assessment-Dschungel wird man nur durch eigene Erfahrungen schlauer.

Fazit

So fundiert wissenschaftsbasierte und so effizient technologiebasierte Assessments sind: Der eigentliche Kern der Personalarbeit ist die Arbeit mit Menschen. Die Fähigkeit, menschliche Reaktionen zu lesen, angemessen darauf einzugehen sowie eine echte menschliche Verbindung und Beziehung aufzubauen – das sind Kernkompetenzen des menschlichen Recruiters. In einem Bewerbermarkt, in dem hochqualifizierte Talente neben den hard facts stärker auf das langfristige Befriedigungspotenzial der Bindung an ein Unternehmen achten, dürfte die Bedeutung des human touches entlang des gesamten Recruiting-Prozesses zunehmen. Dies gilt es bei aller Diskussion um die besten Tools im Kopf zu behalten.

Weitere Literatur

Bogen, M., & Rieke, A. (2018). Help wanted: An examination of hiring algorithms, equity, and bias. Verfügbar unter: https://www.upturn.org/reports/2018/hiring-algorithms/

Bosco, F., Allen, D. G., & Singh, K. (2015). Executive attention: An alternative perspective on general mental ability, performance, and subgroup differences. Personnel Psychology, 68, (4) 859–898.

Hausknecht, J., Day, D. V., & Thomas, S. C. (2004). Applicant reactions to selection procedures: An updated model and meta-analysis. Personnel Psychology, 57, (3), 639–683.

Judge, T. A., Bono, J. E., Ilies, R., & Gerhardt, M. W. (2002). Personality and leadership: A qualitative and quantitative review. Journal of Applied Psychology, 87, (4), 765–780.

Kosinski, M., Stillwell, D., & Graepel, T. (2013). Digital records of behavior expose personal traits. Proceedings of the National Academy of Sciences, 110, (15), 5802–5805.

Li, N., Barrick, M. R., Zimmerman, R. D., & Chiaburu, D. S. (2014). Retaining the productive employee: The role of personality. The Academy of Management Annals, 8, (1), 347–395.

Schmidt, F. L., Oh, I.-S., & Shaffer, J. A. (2016). The validity and utility of selection methods in personnel psychology: Practical and theoretical implications of 100 years of research findings. Verfügbar unter: https://researchgate.net/publication/232564809_The_Validity_and_Utility_of_Selection_Methods_in_Personnel_Psychology.

 

AUTOR(EN)

Dr. Kevin-Lim Jungbauer, Diplom-Kaufmann, M.A. Psychology of Excellence, HR Diagnostics & Talent Assessment Expert beim Konsumgüterkonzern Beiersdorf in Hamburg.