HackerRank hat seinen KI-gestützten Bewerber-Tracking-Algorithmus als Open-Source-Projekt veröffentlicht. Ein Entwickler hat das Tool mit demselben Lebenslauf 100 Mal getestet und Scores zwischen 66 und 99 von 100 Punkten erhalten. Hinter dieser Varianz steckt kein Bug, sondern ein fundamentales architektonisches Problem, das jeden LLM-basierten ATS betrifft.

drweb.de als bevorzugte Quelle auf Google hinzufügenQualitätsgeprüfte Inhalte direkt in Google News & DiscoverJetzt hinzufügen

Das Wichtigste in Kürze

  • HackerRanks Open-Source-ATS vergibt für identische Lebensläufe bei 100 Läufen Werte von 66 bis 99, ein Spread von 33 Punkten.
  • Der Mechanismus ist strukturell: Subjektive Kategorien wie „Projektqualität“ haben keine numerischen Anker im Rubric, der LLM trifft Ermessensentscheidungen, die zwangsläufig variieren.
  • Unter EU AI Act gilt KI im Recruiting ab 2. August 2026 als Hochrisiko-Anwendung, Bußgelder bei Verstößen können bis 15 Millionen Euro betragen.
  • DSGVO Art. 22 und ein EuGH-Urteil von Dezember 2023 untersagen die bloße formale Absegnung eines KI-Scores durch einen Menschen.

Warum temperature=0 das Problem nicht löst

Eine Gussform, kleine Zettel mit Noten und ein Lebenslauf mit Fragezeichen
HackerRank Hiring Agent ruft Sprachmodell sechsmal pro Lebenslauf auf. Trotz niedriger Temperatur entstehen Variationen durch GPU-Floating-Point-Operationen

Der Hiring Agent von HackerRank ruft das Sprachmodell sechsmal pro Lebenslauf auf: für Basis-Extraktion, Arbeitserfahrung, Ausbildung, Skills, Projekte und die finale Gesamtbewertung. Jeder dieser Aufrufe sampelt aus einer Wahrscheinlichkeitsverteilung über mögliche Token. Selbst bei temperature=0.1 bleibt die Varianz bestehen, weil GPU-Floating-Point-Operationen nicht-assoziativ sind: Parallele Batches erzeugen minimale Logit-Fluktuationen, die sich über sechs LLM-Aufrufe kumulativ verstärken. Ein GitHub-Issue aus Oktober 2025 dokumentiert Scores von 27, 34, 32, 34, 34 und 30 in sechs aufeinanderfolgenden Läufen bei temperature=0, also echtem Greedy Decoding.

Das eigentliche Designproblem liegt im Rubric ohne numerische Anker. Kategorien wie „Projektqualität“ oder „architektonische Komplexität“ zwingen den LLM zu Ermessensentscheidungen: Manchmal „fehlt die architektonische Komplexität“, manchmal „demonstrieren die Projekte realen Produktionseinsatz“. Checklist-Kategorien wie „Technical Skills“ zeigen dagegen in 98 von 100 Läufen identische Ergebnisse, weil dort kein Ermessen nötig ist. Der Unterschied ist kein gradueller, sondern ein struktureller. Wer mehr über den technischen Hintergrund solcher LLM-Architekturen verstehen möchte, findet im LLM-Ratgeber für den Unternehmenseinsatz eine solide Grundlage.

Dass das Modell die Varianz verursacht, hat ein Wechsel von gemma3:4b auf Gemini Flash ausgeschlossen: Die Streuung wurde enger, blieb aber bestehen. Bei einem Cutoff von 60 Punkten ist der identische Lebenslauf weiterhin in 28 Prozent der Läufe gescheitert.

Ein KI-Score, der denselben Lebenslauf je nach Tageszeit anders bewertet, ist keine Automatisierung von HR, sondern Automatisierung von Willkür. Unternehmen in DACH, die das ohne Risikodokumentation einsetzen, spielen mit dem Feuer.

— Markus Seyfferth, Chefredakteur Dr. Web

Kein Einzelfall: Was die Precedenzliste zeigt

Ein Messgerät mit einer Nadel, die auf 50 steht, und einem Aufkleber
Ein schwankender Messzeiger steht für das, was LLM-basierte Scoring-Systeme strukturell nicht leisten können: reproduzierbare Ergebnisse.

Das HackerRank-Problem steht nicht allein. Amazon hat 2018 ein KI-Recruiting-Tool abgeschaltet, das Frauen systematisch benachteiligte, weil das Unternehmen das Tool aus einer männerdominierten Bewerbungshistorie trainiert hatte. Workday ist 2024 mit Diskriminierungsvorwürfen konfrontiert worden, weil das automatisierte Screening Bewerber ohne menschliche Überprüfung abgelehnt hat. Der HackerRank-Fall fügt eine neue Dimension hinzu: nicht Bias durch Trainingsdaten, sondern Bias durch Zufallslotterie bei identischem Input. Ein arXiv-Paper (2503.10671) zeigt zudem, dass LLM-Scoring bei Lebensläufen subtile soziokulturelle Marker in Namen und Formulierungen erkennt und unterschiedlich bewertet. Nicht-Determinismus und demographischer Bias wirken also kumulativ, nicht alternativ. Ähnliche Muster zeigen sich übrigens auch dort, wo Agentic-KI-Systeme im Unternehmenseinsatz autonom Entscheidungen treffen, ohne dass Menschen die Einzelschritte kontrollieren.

Was bedeutet das für DACH-Entscheider konkret?

Weißer Prüfbericht mit Aufdruck „HOCHRISIKO“ und Froschfigur mit Warnschild
Ab August 2026 gilt der EU AI Act für KI-Systeme im Recruiting: Wer ohne Risikodokumentation und menschliche Aufsicht screent, riskiert Bußgelder bis 15 Millionen Euro.

Ab dem 2. August 2026 gilt der EU AI Act für Bewerber-Scoring-Systeme als Hochrisiko-Anwendung (Anhang III, Ziffer 4). Das bedeutet Pflichten zu Risikomanagement, technischer Dokumentation, Logging und menschlicher Aufsicht nach Art. 9 bis 14. Bußgelder bei Verstößen können bis 15 Millionen Euro oder 3 Prozent des weltweiten Jahresumsatzes betragen. Parallel greift DSGVO Art. 22: Nach der SCHUFA-Entscheidung des EuGH (C-634/21, Dezember 2023) liegt eine unzulässige automatisierte Entscheidung bereits vor, sobald ein KI-Score faktisch maßgeblich ist und ein Mensch ihn nur formal absegnet. Eine Rubber-Stamp-Bestätigung genügt nicht.

Drei konkrete To-dos für den Einsatz von KI im Recruiting: Zunächst eine Datenschutz-Folgenabschätzung nach Art. 35 DSGVO durchführen und mit dem Datenschutzbeauftragten abstimmen, bevor ein Tool produktiv geht. Kein Score darf ohne dokumentierte menschliche Sichtung inklusive Zugang zu den Rohdaten als Entscheidungsgrundlage gelten. In Deutschland muss der Betriebsrat frühzeitig nach § 87 Abs. 1 Nr. 6 BetrVG eingebunden werden: Das BAG hat Ende März 2026 die Mitbestimmungsrechte bei HR-KI-Systemen ausdrücklich gestärkt. Wer lokal und datenschutzkonform experimentieren möchte, findet in lokalen KI-Modellen eine alltagstaugliche Alternative für Prototypen, die ohne Cloud-Anbindung auskommt. Einen breiten Überblick über den Stand der KI-Entwicklung im Unternehmenskontext bietet die KI-Kategorienseite auf Dr. Web.

Das HackerRank-Projekt hat in den letzten Wochen auf GitHub nahezu 3.000 Sterne gesammelt. Die Popularität des Tools macht die technische Schwäche nicht kleiner, sondern vergrößert das regulatorische Risiko für jeden, der das Tool unreflektiert einsetzt. Die Wurzeln heutiger LLM-Systeme reichen tief, aber die Grenzen generativer Sprachmodelle bei reproduzierbaren Entscheidungen sind 2026 kein Forschungsthema mehr, sondern Unternehmensrealität.

Mehr Newshunger?

4,2 21 Bewertungen

Wie hat Ihnen dieser Artikel gefallen?