Tehát Harry Smith a neved? Hát, úgy tűnik, hogy ezzel a szoftvermérnöki pozícióval búcsút inthetsz!
A mesterséges intelligenciát alkalmazó toborzószoftverek híresztelések szerint nem kedvelik az angolszász névvel rendelkező férfi jelölteket.
A stockholmi Royal Institute of Technology fiatal diplomázója, Celeste De Nadai, izgalmas kísérletbe fogott, amelyben az LLM-ek (nagy nyelvi modellek) munkaerő-toborzásban betöltött szerepét tesztelte. A svéd tartalomgyártó startup marketingeseként dolgozó De Nadai nem célzott arra, hogy forradalmasítsa a világot; inkább arra volt kíváncsi, hogy a modern LLM-ek mennyire mentesek a korábbi generációk elfogultságaitól. A kutatása során arra összpontosított, hogy feltárja, vajon az újabb modellek képesek-e objektívebb döntéseket hozni a toborzási folyamat során.
A kérdés nagyon is aktuális. Rohamosan terjednek az MI-alapú HR-es kiválasztó szoftverek, melyek használatát egyesek kifejezetten kontraproduktívnak tartják. Ilyen jellegű kutatásokat pedig nagyobb adathalmazon és a legújabb modellekkel még nem futtattak le.
A mondanivaló ugyanaz, de a kifejezésmód különböző lehet. Íme egy alternatív megfogalmazás: "Milyen érzés, ha más szavakkal mondják el ugyanazt a gondolatot?"
De Nadai kutatása során csupán olyan alapvető adatokat használt, mint a jelöltek neve és neme, amelyekből az LLM-ek következtethetnek a jelöltek kulturális hátterére. Három különböző modellt elemezett: a Google Gemini-1.5-flash-t, a francia Mistral AI által kifejlesztett Open-Mistral-nemo-2407-et, valamint az OpenAI GPT4o-mini-jét.
A modellek feladata az volt, hogy értékeljék a jelöltek állásinterjú során adott válaszait a nem és a kulturális csoportra utaló név figyelembe vételével. A három LLM persze át volt verve: a kiértékelendő válaszok minden esetben ugyanazok voltak, csak a válaszokat adó személy neve és neme változott.
A kísérletek során a válaszokat 200 eltérő névvel kapcsolták össze: a névhasználat fele férfiakhoz, fele pedig nőkhöz köthető, és négy kulturális csoportból (nyugat-afrikai, kelet-ázsiai, közel-keleti, angolszász) származik. Az LLM-ek elemzése során 15 különböző hőmérséklet-beállítást alkalmaztak: ezek egytizedes lépésekben módosították, hogy a modell válaszai mennyire legyenek elvárhatóak (0,1-es beállítás) vagy éppen ellenkezőleg, mennyire térjenek el a megszokottól, akár egészen szokatlan válaszokat adva (1,5-ös beállítás).
Az eredmény egyértelmű, állítja dolgozatában De Nadai: ha a modellek angolszász származásra utaló nevet viselő férfi jelöltek válaszaiként kapták meg a kiértékelendő válaszokat, akkor azokat tendenciózusan gyengébbre értékelték, mint más esetekben.
A korábbi kutatások eredményei alapján De Nadai hipotézise az volt, hogy a modellek viselkedése éppen ellenkezőleg alakul: a nyugati névvel rendelkező férfi jelölteket kedvezőbben ítélik meg. Azonban a modellek között voltak különbségek: a Gemini modell bizonyos paraméterek, például 1 fölötti hőmérsékleti értékek esetén, kiemelkedőbb teljesítményt mutatott.
Átléptem a ló másik oldalára?
A tanulmány sajnos nem nyújt világos és kézzelfogható bizonyítékot a jelenség magyarázatára. Nadai elmélete szerint az LLM-ek esetében a túlkorrigálás következtében az előítéletességet túlságosan próbálták eltüntetni, ami végül a jelenség ellenkező irányba való elmozdulásához vezetett.
Mindez csupán egy apró részlet ahhoz, hogy a fejlesztők továbbra is nehezen birkóznak meg az előítéletek kérdésével. De Nadai véleménye szerint ez nem jelenti azt, hogy el kellene vetni a mesterséges intelligencia alkalmazását a toborzási folyamatokban. Javasolja, hogy a technológia korlátait figyelembe véve fogalmazzunk meg pontosabb kérdéseket a modellek számára, és kiemelt figyelmet szenteljünk a hőmérsékletérték finomhangolásának. Ugyanakkor elengedhetetlen, hogy kizárjuk az elemzésből azokat az adatokat, amelyeket nem szeretnénk (vagy nem lenne helyénvaló) figyelembe venni a munkaerő-felvételnél. Ilyen például a jelöltek neve és neme, amelyek torzíthatják az eredményeket.