Innhold Vis
Kimi-teamet fra Moonshot AI publiserte 15. mars 2026 et teknisk paper som utfordrer et tiår gammelt designvalg i alle moderne språkmodeller. Arkitekturen heter Attention Residuals – og den adresserer noe ganske fundamentalt: at AI-modeller gradvis «glemmer» kontekst jo dypere inn i nettverket informasjonen beveger seg.
Dette er ikke snakk om at en chatbot glemmer hva du sa tre meldinger siden. Det er noe mer grunnleggende – et problem inne i selve nettverket mens det prosesserer én enkelt forespørsel. Og det har eksistert siden transformer-arkitekturen ble standard rundt 2015.
Jeg har gravd litt i papiret og forsøkt å forstå hva som faktisk skjer her. Spoiler: det er enklere enn det høres ut som, og resultatene er ganske imponerende.
Hva er PreNorm dilution-problemet?
Alle moderne store språkmodeller – GPT, Claude, Gemini, Llama – er bygd på transformer-arkitekturen. Den består av hundrevis av lag stablet oppå hverandre. Hvert lag gjør sin lille bearbeidelse og sender resultatet videre til neste lag.
Problemet oppstår i måten disse lagene kobles sammen. Siden 2015 har standarden vært noe som heter residual connections med PreNorm – en teknikk lånt fra ResNet-nettverkene for bildegjenkjenning. Ideen er enkel: hvert lag legger sitt output til det forrige, med en fast vekt på 1.
I praksis betyr dette at alle lag-outputs akkumuleres jevnt. Lag 1 + Lag 2 + Lag 3 og så videre, med nøyaktig samme vekt til alle. Og her er problemet: jo flere lag du stacker, jo mer svekkes det opprinnelige signalet. Den originale informasjonen fra tidlige lag drukner gradvis i den akkumulerte summen av alt som kom etter. Kimi-teamet kaller dette «PreNorm dilution» – ifølge papiret fører det til at hvert enkelt lags bidrag progressivt fortynnes jo dypere inn i nettverket vi kommer.
Tenk på det som å ta notater i et møte ved å stadig skrive ny tekst over de gamle notatene uten at blekket tørker skikkelig. Det du skrev først blir vanskeligere og vanskeligere å lese.
Hva er Attention Residuals, og hvordan løser det dette?
I stedet for å akkumulere alle lag-outputs med fast vekt, erstatter Attention Residuals denne mekanismen med – gjett hva – attention. Den samme mekanismen som gjør transformer-modeller gode til å se relasjoner mellom ord i en tekst.
Hvert lag får nå lære dynamisk, input-spesifikke vekter for å bestemme hvor mye det henter fra hvert av de foregående lagene. I stedet for at alle lag teller likt, kan nettverket selv bestemme: «her trenger jeg mye fra lag 12, litt fra lag 24, og nesten ingenting fra lag 36.»

Det praktiske problemet er åpenbart: full Attention Residuals krever O(Ld) minne – altså minnet vokser med antall lag ganger dimensjonen. For en 48 milliarder parametere-modell er det ikke bærekraftig. Kimi-teamet løste dette med Block AttnRes: del lagene inn i blokker, og kjør attention kun over blokk-nivå-representasjoner. Minnet faller fra O(Ld) til O(Nd), der N er antall blokker.
Resultatet er at minnekostnaden er «nesten null i praksis», som de skriver – og ytelsen matcher nesten full AttnRes.
Hva sier tallene?
Kimi-teamet testet dette på Kimi Linear – en 48 milliarder parametermodell med 3 milliarder aktive parametere – forhåndsopplært på 1,4 billioner tokens. Resultatene fra det offisielle papiret:
- GPQA-Diamond (ekspertspørsmål i kjemi, fysikk, biologi): fra 36,9 til 44,4 – en forbedring på 7,5 prosentpoeng
- HumanEval (kodegenerering): +3,1 poeng
- MATH (matematikk): +3,6 poeng
Block AttnRes matchet tap-nivået til en baseline som var trent med 1,25 ganger mer beregning. Altså: du kan potensielt få samme ytelsesgevinst fra en arkitekturjustering som du ellers måtte kjøpe deg til med 25% mer GPU-tid. Det er mye penger i stor skala.
Skaleringslov-eksperimentene viste at forbedringen er konsistent på tvers av modellstørrelser – ikke noe som bare fungerer på én spesifikk konfigurasjon.
Er dette et gjennombrudd?
Her er det fristende å ri på hypebølgen. «De løste AI-hukommelsesproblemet!» er en god overskrift. Men det er litt mer nyansert.
Det Kimi-teamet har gjort er elegant: de har identifisert en spesifikk svakhet i en grunnleggende komponent som har vært der siden transformeren ble standard, og foreslått en drop-in-erstatning som ikke koster nevneverdig mer å kjøre. Det er ikke en revolusjon i AI-kapasiteter, men det er solid ingeniørarbeid som kan forbedre alle eksisterende transformer-baserte modeller.
«Drop-in fix» er nøkkelordet. Koden er tilgjengelig på GitHub, og i teorien kan hvem som helst implementere dette i sine egne modeller. Det er ikke låst bak en API eller et kommersielt produkt.

Skeptikeren i meg vil påpeke at vi har sett mange «fundamentale gjennombrudd» i transformer-arkitektur de siste to-tre årene. De fleste viser fine resultater på isolerte benchmarks, men sliter med å replikere gevinster på tvers av forskjellige treningsoppsett. Benchmarks som GPQA-Diamond og HumanEval er ikke hele historien – de måler spesifikke kapasiteter, ikke generell intelligens.
Men 7,5 prosentpoeng på GPQA-Diamond er ikke trivielt. Og det faktum at Kimi er et seriøst laboratorium med Kimi K2.5 bak seg – den modellen jeg tidligere har dekket som slo GPT og Claude på agentoppgaver – gir papiret troverdighet.
Hva betyr dette for fremtidige modeller?
Det interessante spørsmålet er om OpenAI, Anthropic, Google og Meta vil adoptere denne teknikken i sine neste generasjons modeller. De leser alle disse papirene, og drop-in-fikser som ikke koster mye å implementere er akkurat den typen ting som stille finner veien inn i neste treningsrunde.
For lokale modeller og open source-miljøet kan dette faktisk bety noe i nærmere fremtid. Llama 4 og dens etterkommere, Mistral, Qwen – alle er bygd på den samme transformer-grunnmuren med de samme residual connections. Koden ligger åpen på GitHub. Det tar ikke lang tid før noen eksperimenterer med fine-tuning eller ny pre-training med Attention Residuals-modifikasjonen.
Det er litt som å oppdage at du i ti år har bygd alle hus med en litt for tynn bærende bjelke – og så finner noen en enkel måte å gjøre den sterkere på. Alle eksisterende hus er fine, men fremover vil du bare bruke den bedre bjelken.
Om du er nysgjerrig på selve den tekniske rapporten, kan du lese Attention Residuals-papiret på arxiv. Det er tettere kost enn de fleste bloggposter, men absolutt lesbart for den som vil forstå mekanismen skikkelig.