AI-chatboter er besatt av én mann – og ingen vet helt hvorfor

Innhold Vis

ChatGPT, Gemini, Claude, Grok og DeepSeek har én ting til felles som du sannsynligvis ikke har tenkt på: Be dem skrive en kort fortelling, og sjansen er stor for at du ender opp med en ensom fyrvokter som heter Elias Thorne. Eller kanskje en horologist – det er ordet for klokkemakere – som bærer på en tung hemmelighet.

Fenomenet har fått navnet «Elias Thorne-problemet» i AI-forskningsmiljøer, og det er merkelig nok til at det fortjener en nøyere titt. Forskere ved Cornell University har nå gravd seg ned i det – og funnet en forklaring som sier ganske mye om hvordan disse modellene faktisk fungerer under panseret.

For dette handler ikke om et morsomt sammentreff. Det handler om noe mer fundamentalt: hva skjer når AI-modeller trenes på data som allerede er laget av AI-modeller?

Hvem er Elias Thorne?

Elias Thorne er ingen ekte person. Han er en fiktiv karakter som dukker opp igjen og igjen når AI-systemer skal lage historier. I Cornell-studien analyserte forskerne Sil Hamilton og David Mimno 20 000 historier fra de store språkmodellene og fant noe oppsiktsvekkende: de samme 11 karakternavnene og yrkene dukket opp i over 88 prosent av alle genererte historier.

Elias er ikke alene. Han har venner: Alaric, Seraphina, Dorian. Og de jobber alle i bestemte yrker – fyrvokter, klokkemakere, bibliotekarer, oppdagelsesreisende. De bor i hus med knirkende gulvbord og ser ut over havet mens de bærer på unevnelige sorger.

Det er ikke tilfeldig at karakterene er som de er. Det er et mønster som ser ut til å gjentas på tvers av alle de store modellene, uavhengig av hvem som har laget dem.

Ensomt fyrtårn i tåke ved havet om natten med digitale mønstre i luften — Fyrvokteren Elias Thorne hjemsøker alle de store AI-modellene – men hvem skapte ham?

Hvor kommer han fra?

Svaret peker mot et datasett kalt WildChat – en samling på én million ekte ChatGPT-samtaler som er blitt brukt til å trene nyere språkmodeller. Innenfor dette datasettet fant forskerne 166 samtaler som inneholder «Elias» skrevet i den karakteristiske fyrvokter-stilen.

Det høres ikke ut som mye. 166 av én million. Men her er poenget: når modeller trenes på WildChat, arver de disse mønstrene. Og når de modellene igjen brukes til å lage nye treningsdata – som andre modeller trenes på – forsterkes mønsteret for hvert generasjonsskifte.

Hamilton beskriver det som «en virus.» Modellen som ble trent på WildChat kopierer stilen, og utviklere som bruker den modellen som grunnlag replikerer den uvitende videre. Slik sprer Elias Thorne seg fra modell til modell, datasett til datasett.

Det finnes faktisk en historisk parallell: Elias Allen var en ekte londonsk klokkemakermester fra 1500-tallet. Om det er tilfeldig likhet eller en dypere kobling via treningsdata er uklart – men det er et interessant spor.

Hva har alignment med dette å gjøre?

Her blir det virkelig interessant. Forskerne har en teori om hvorfor akkurat disse historiene overleverte og dominerte: de er trygge.

Fyrvokterhistorier om ensomhet, meditasjon og melankolsk refleksjon er nesten umulige å misbruke. De fornærmer ingen, inneholder ingenting kontroversielt, og utløser ikke innholdsfiltere. Når en modell gjennomgår alignment-prosessen – der den trenes til å unngå skadelig innhold – ser det ut til at den foretrekker disse historiene fremfor mer varierte, potensielt risikofylte narrativer.

Hamilton beskriver det som en flaskehals: modellen siler historier gjennom alignment-prosessen og ender opp med å preferere en veldig smal skive av WildChat-historiene – akkurat de trygge, vakre, nøytrale fyrvokterfortellingene. Resultatet er at modellen i praksis har lært seg én måte å fortelle en historie på, og den gjentar den i det uendelige med minimale variasjoner.

Dette er en litt ubehagelig innsikt i hvordan AI-modeller faktisk tenker. De er ikke kreative i tradisjonell forstand – de gjenkjenner mønstre og reproduserer dem. Og når ett mønster er tilstrekkelig «trygt» og godt representert i treningsdataene, kan det dominere på bekostning av alt annet.

Flere identiske roboter som leser den samme boken - illustrasjon av AI-repetisjonsmønster — Når modeller trenes på hverandres output forsterkes mønstrene for hvert generasjonsskifte

Fra chatbot til Amazon-bokhylla

Saken stopper ikke i laboratoriet. Elias Thorne har vandret ut i verden på egenhånd.

På Amazon kan du nå kjøpe bøker med Elias Thorne som forfatter eller protagonist i alt fra fantasy-arkeologi til alternativ medisin til natur-lydalbum. Det er mennesker som har bedt en chatbot skrive noe, fått en Elias Thorne-fortelling tilbake, og deretter publisert den på Amazon uten å tenke nøyere over det.

YouTube-kanaler med AI-generert innhold portretterer ham som en tragisk 83-år gammel sersjantmajor eller som «Ohios rikeste mann» som dør med tolv dollar på konto. Begge varianter er like oppdiktede – men de sprer seg fordi AI-verktøyene som lager dem alle trekker fra de samme kildene.

Dette er ikke bare et morsomt kuriosum. Det er et praktisk eksempel på hva som skjer når AI-generert innhold flommer over nettet uten menneskelig redaksjonell kontroll: mønstrene forsterkes, variasjon kveles, og nettet fylles med tusenvis av varianter av den samme historien.

Er dette et problem med alle LLM-er?

Cornell-studien dekket ChatGPT, Gemini, Claude, Grok og DeepSeek – og alle viste det samme mønsteret. Det er ikke én modell som er spesielt syk. Det er hele treningsdataøkosystemet som har et Elias Thorne-problem.

Det forteller noe viktig om AI-trening generelt: datasettene påvirker hverandre. Når modell A trenes på data fra modell B, arver A ikke bare kunnskap fra B – den arver også Bs blind spots, Bs favorittmønstre og Bs systematiske skjevheter.

Forskerne ved Cornell har dokumentert at dette gjelder narrativ skriving. Det er rimelig å anta at lignende mekanismer gjelder på andre områder. Kanskje er det andre «Elias Thorner» vi ikke har oppdaget ennå – mønstre som sitter dypt i modellene fordi de var trygge nok til å overleve alignment-siling.

Hvis du vil forstå mer om hvordan slike mønstre oppstår i AI-systemer, er det verdt å lese om Anthropics arbeid med å lese Claudes interne tanker – de fant mye overraskende der også. Og for de tekniske begrepene er AI-ordlisten på jansverre.net et godt sted å begynne.

Det mest interessante med Elias Thorne er ikke mannen selv – det er hva han sier om systemene som skapte ham. At fem forskjellige AI-selskaper med fem forskjellige tilnærminger til modelltrening alle endte opp med den samme ensomme fyrvokteren ved havet. Det sier ganske mye om at vi ikke fullt ut forstår hva modellene faktisk lærer seg – og hva de tar med seg videre.

Ofte stilte spørsmål

Kan jeg teste om min AI-chatbot har Elias Thorne-problemet?

Ja. Be den om å skrive en kort fortelling uten å gi noen spesifikke instruksjoner. Hvis karakteren er en ensom mann i et kystmiljø som bærer på hemmeligheter, har du truffet mønsteret. Cornell-studien fant at de samme 11 karakternavnene dukket opp i over 88 prosent av alle testede historier på tvers av ChatGPT, Gemini, Claude, Grok og DeepSeek.

Er dette det samme som hallusinasjon?

Ikke helt. Hallusinasjon er når AI-en dikter opp fakta som ikke finnes – feil datoer, falske sitater, ikke-eksisterende referanser. Elias Thorne-fenomenet handler om at modellen reproduserer et mønster så sterkt at all kreativ variasjon forsvinner. Det er mer som en OCD-trekk enn en faktafeil, men begge bunner i svakheter ved treningsdataene.

Hvorfor stopper ikke AI-selskapene dette?

Fordi det er vanskelig å oppdage fra innsiden. Alignment-prosessen ser ut til å aktivt favorisere disse «trygge» historiene – det er altså en uønsket bivirkning av en ønsket mekanisme. Cornell-studien er blant de første til å dokumentere problemet systematisk, og forskningsmiljøet er nå i gang med å forstå implikasjonene.

Hva er WildChat, og er det et problem at modeller trenes på det?

WildChat er et datasett med én million ekte ChatGPT-samtaler, publisert som open-source treningsdata. Det er verdifullt fordi det viser hvordan folk faktisk bruker AI. Men når modeller trenes på WildChat og deretter brukes til å lage nye datasett, forsterkes mønstrene i WildChat for hvert generasjonsskifte – inkludert Elias Thorne og de 166 fyrvoktersamtalene som ser ut til å ligge i kjernen av problemet.