Har du noen gang lurt på hva som faktisk skjer inne i hodet til ChatGPT eller Claude? Ikke den markedsførings-versjonen med «kunstig intelligens som forstår deg» – men hva som virkelig foregår når du skriver en melding og får svar tilbake?
Jeg har brukt utallige timer på å krangle med disse modellene. Spurt om noe enkelt, fått et selvsikkert svar som viser seg å være fullstendig oppspinn. Blitt fortalt at en bok jeg aldri har skrevet er «et mesterverk». Fått kode som ser perfekt ut – helt til jeg prøver å kjøre den.
Men jo mer jeg forstår hvordan språkmodeller faktisk fungerer, jo mindre frustrert blir jeg. For da gir plutselig alt mening. Hallusinasjoner er ikke bugs – de er features av arkitekturen. Så la meg ta deg med på en reise gjennom de seks stegene som skjer hver gang du chatter med en AI.
Steg 1: Tokenization – tekst blir til tall
Det første som skjer når du skriver noe til en språkmodell er at teksten din splittes opp i «tokens». Og nei, tokens er ikke det samme som ord. Det var min første aha-opplevelse.
Ta setningen «I love programming.» – hvor mange ord er det? Fire, ikke sant? Men for en språkmodell er det sju tokens. «I» er én token. «love» er én. «programming» er én. Men punktumet? Det er også en egen token. Mellomrommene teller med.
Greia er at vanlige ord som «the», «is» og «and» får én token hver. Men uvanlige ord splittes opp i biter. «Indistinguishable»? Fire tokens. «Electroencephalography»? Enda flere. Modellen lærer seg de vanligste bitene av språket, og setter dem sammen som Lego-klosser.
Her er en tommelfingerregel: 4000 tokens er omtrent 3000 engelske ord. Norsk bruker litt flere tokens per ord fordi vi har færre norske tekster i treningsdataene. Derfor koster det mer å snakke norsk med AI – bokstavelig talt, hvis du betaler per token.
Hver token får så et unikt tall – en token ID. «The» kan være 1820. «Cat» kan være 9246. Plutselig er hele meldingen din bare en lang rekke med tall.

Steg 2: Embeddings – tall blir til mening
Nå har vi en rekke med tall. Men tallene alene forteller ikke modellen noe om hva ordene betyr. «Cat» er bare 9246 – det kunne like gjerne vært «banana» eller «democracy».
Embeddings løser dette. Hver token-ID kobles til en vektor – en lang liste med desimaltall som representerer betydningen av tokenet. GPT-3 bruker 12 000 tall per token. Tolv tusen! Llama 3 (70B-versjonen) bruker 8192.
Disse tallene er ikke tilfeldige. De er lært gjennom trening på enorme mengder tekst. Og det geniale er at ord med lignende betydning havner nær hverandre i dette matematiske rommet.
«King» og «Queen» er nær hverandre. «JavaScript» og «Python» (programmeringsspråkene) ligger tett. Men «Python» (slangen) er et helt annet sted. Modellen har lært å skille mellom dem basert på kontekst.
Det klassiske eksempelet som blåste mitt sinn: Hvis du tar vektoren for «King», trekker fra «Man», og legger til «Woman» – får du noe som er veldig nær «Queen». Matematikk som fanger menneskelige konsepter. Det er nesten poetisk.
Steg 3: Transformer og attention – kontekst er alt
Nå kommer vi til det som virkelig revolusjonerte AI i 2017. En forskningsartikkel med den beskjedne tittelen «Attention Is All You Need» endret alt. Transformer-arkitekturen var født.
Tenk på det som en spotlight-operatør på en konsert. Når sangeren synger «she», må operatøren vite hvem spotlighten skal peke på. Er det gitaristen? Bassisten? Sangeren selv?
Attention-mekanismen gjør det samme med tekst. Ta setningen «The cat sat on the mat because it was tired.» Når modellen kommer til «it» – hva refererer det til? Katten eller matten? Du og jeg vet intuitivt at det er katten. Ingen matter blir trette av å bli sittet på.
Attention lar modellen koble «it» til «cat» ved å beregne hvor relevant hvert tidligere ord er for det nåværende ordet. Den lærer at «tired» er noe levende vesener blir, ikke møbler.
Men det stopper ikke der. Moderne modeller har mange lag med attention. GPT-3 har 96 lag. Llama 3 (70B) har 80 lag. Hvert lag bygger en mer abstrakt forståelse. De første lagene fanger kanskje grammatikk. De midterste fanger betydning. De siste fanger komplekse resonnementer.
Tenk på det som å lese en tekst flere ganger – først for å forstå ordene, så for å forstå setningene, så for å forstå underteksten.

Steg 4: Sannsynligheter – modellen gambler
Nå har modellen prosessert hele meldingen din gjennom alle lagene sine. Den har kodet betydning, fanget kontekst, og bygget en forståelse av hva du spør om. Hva skjer nå?
Den beregner sannsynligheter for hvert eneste mulige neste token. Llama 3 har 128 000 tokens i vokabularet sitt. Det betyr at modellen gir en score til alle 128 000 mulige neste ord, tegn, eller orddeler.
Disse scorene kalles «logits» – rå tall som kan være positive eller negative. De kjøres gjennom en funksjon kalt «softmax» som konverterer dem til sannsynligheter mellom 0 og 1, der alle summerer til 1.
Resultatet kan se slik ut for neste token etter «I love»:
- «you» – 18%
- «it» – 12%
- «the» – 9%
- «this» – 7%
- «programming» – 5%
- … og 127 995 andre tokens med mindre sannsynligheter
Her er det viktige: Modellen «velger» ikke bevisst. Den bare beregner en sannsynlighetsfordeling. Den vet ikke hva som er sant eller usant. Den vet bare hva som statistisk sett pleier å komme etter «I love» i treningsdataene.
Steg 5: Sampling – hvordan velges neste token?
Vi har sannsynlighetene. Men hvordan blir én av dem til det faktiske svaret du ser? Her kommer sampling-strategier inn.
Greedy decoding er det enkleste: Bare velg tokenet med høyest sannsynlighet. Hver gang. Problemet? Det blir kjedelig og repetitivt. Modellen låser seg i trygge, forutsigbare mønstre.
Temperature er den viktigste knappen du kan skru på. Lav temperatur (0.1-0.3) gjør fordelingen «spissere» – de høye sannsynlighetene blir enda høyere, de lave blir enda lavere. Resultatet er trygt og forutsigbart. Perfekt for kode eller faktaspørsmål.
Høy temperatur (1.0+) flater ut fordelingen. Plutselig har lavere-sannsynlighets tokens en reell sjanse. Resultatet er mer variert og «kreativt» – men også mer tilfeldig og potensielt kaotisk.
Top-P (nucleus sampling) er en annen strategi: I stedet for å vurdere alle 128 000 tokens, velger du bare fra de som til sammen utgjør topp P prosent sannsynlighet. Med Top-P på 0.9 ignorerer du de fleste tokenene og fokuserer på de mest sannsynlige.
Mine praktiske anbefalinger:
- Kode: Temperature 0.2-0.4. Du vil ha presisjon, ikke kreativitet.
- Generelt: Temperature 0.7-1.0. God balanse mellom variasjon og koherens.
- Kreativ skriving: Temperature 1.0+. La modellen overraske deg.
Men husk: «Kreativitet» er bare vår tolkning av tilfeldighet. Høy temperatur betyr ikke at modellen tenker mer kreativt – den bare gambler mer.
Steg 6: Loopen – gjenta til ferdig
Her er det som virkelig fikk meg til å forstå hvorfor AI oppfører seg som den gjør: Alt dette gjentas for hver eneste token.
Tokenization. Embeddings. Attention gjennom alle lagene. Sannsynlighetsberegning. Sampling. Så legges det nye tokenet til, og hele prosessen starter på nytt for neste token.
Derfor blir lange svar tregere. Modellen må gjøre hele beregningen på nytt for hvert eneste lille ord. Når du ser teksten «strømme» inn – det er ikke modellen som skriver en hel setning og viser deg den gradvis. Den beregner bokstavelig talt ett token av gangen.
Og her er den virkelig viktige innsikten: Modellen vet genuint ikke hva den vil si om ti tokens. Det finnes ingen skjult plan. Ingen outline. Hver token bestemmes i det øyeblikket den genereres, basert på alt som kom før.
Det er derfor modeller noen ganger starter en setning i én retning og ender et helt annet sted. De «angrer» ikke på begynnelsen – de kan ikke det. De bare fortsetter fremover, token for token.

Tre innsikter som endret hvordan jeg bruker AI
Når du først forstår denne arkitekturen, gir så mye mer mening.
Hallusinasjoner er ikke løgn. Modellen prøver ikke å lure deg. Den genererer rett og slett det som mønster-matcher best med «troverdig-klingende tekst». Sannsynlighetsfordelingen skiller ikke mellom sant og usant – bare mellom sannsynlig og usannsynlig. En faktuelt feil påstand kan ha høy sannsynlighet hvis den ligner på ting som ofte skrives.
Derfor: Alltid verifiser fakta. Alltid. Spesielt tall, datoer, og spesifikke påstander. Modellen er en fantastisk skrivehjelp, men en elendig faktakilde.
Temperature er ikke kreativitet. Når folk sier at høyere temperatur gjør modellen «mer kreativ», er det en forenkling. Det øker bare variansen i sampling. Noen ganger gir det interessante resultater. Andre ganger bare nonsens. Ekte kreativitet krever noe modellen ikke har: intensjon og forståelse av hva som faktisk er nytt eller interessant.
Context limits er ikke gjerrigskap. Attention-mekanismen har O(n^2) kompleksitet. Det betyr at hvis du dobler kontekstlengden, firedobler du beregningskostnaden. Hver token må «se på» alle andre tokens. Med 100 000 tokens må modellen gjøre 10 milliarder attention-beregninger per lag. Det er ikke OpenAI eller Anthropic som er gjerrige – det er ren matematikk.
Så hva betyr alt dette for deg?
Du trenger ikke huske alle tekniske detaljer. Men hvis du tar med deg noen ting fra denne artikkelen, la det være disse:
Språkmodeller er ikke magiske. De er sofistikerte sannsynlighetsmaskiner som predikerer neste token basert på mønstre i treningsdataene. Det er utrolig imponerende ingeniørkunst – men det er ikke «intelligens» i menneskelig forstand.
De vet ikke hva de snakker om. De vet bare hva som statistisk sett pleier å komme etter det som allerede er skrevet. Det er derfor de kan være så selvsikre og så feil på samme tid.
Og kanskje viktigst: Jo bedre du forstår begrensningene, jo bedre kan du utnytte styrkene. Bruk dem til brainstorming, skriving, koding, og idegenerering. Men aldri som din eneste kilde til sannhet.
Neste gang Claude eller ChatGPT forteller deg noe som høres litt for godt ut til å være sant – husk at det bare er det mest sannsynlige neste tokenet. Ikke nødvendigvis det riktige.