En nanofotonikk-doktorgradsstudent har designet en fotonisk chip kalt PRISM som erstatter det dyreste steget i lang-kontekst-inferens med lys. Tanken er enkel: i stedet for at GPUen din skanner gjennom millioner av KV-cache-blokker lineært for å finne de relevante – bruker PRISM optisk broadcast der lyset treffer alle blokker samtidig. Resultatet ifølge designeren: 944 ganger raskere enn GPU-skanningen, og 18 000 ganger lavere energiforbruk per spørring.

Dette er ikke et ferdig produkt. Det er ikke engang en prototype som kjøres i produksjon. Det er et konseptdesign fra en doktorgradsstudent – men ideen er interessant nok til å ta på alvor, fordi den treffer et problem som faktisk henger igjen i moderne LLM-inferens: jo lengre kontekst, jo tregere og dyrere blir hvert enkelt genereringstrinn.

La meg forklare hva problemet faktisk er, og hvorfor et fotonisk chip potensielt kan gjøre noe her som en GPU ikke kan.

Hva er KV-cache-problemet med lang kontekst?

Når en LLM genererer et nytt token, må den beregne hvor mye oppmerksomhet det nye tokenet skal gi til hvert tidligere token i konteksten. Det er dette attention-mekanismen gjør. For å spare tid lagres nøkkel- og verdi-vektorer fra alle tidligere token i en cache – KV-cachen. I stedet for å beregne dem på nytt, hentes de fra minnet.

Det høres greit ut – inntil kontekstvinduet ditt er på 1 million tokens. Da er KV-cachen enorm. Og her er problemet: metoder som Quest og RocketKV reduserer antallet blokker modellen faktisk henter, men de må fortsatt skanne gjennom alle N blokk-signaturer fra HBM (høybåndbredde-minne) for å finne ut hvilke blokker som er relevante. Det er en O(N) operasjon – lineær kompleksitet med kontekstlengden.

På en H100 med 1 million tokens i kontekst tar denne skanningen rundt 8,5 mikrosekunder per spørring. I batch-serving der du kjører mange samtidige forespørsler, akkumulerer dette seg raskt til å bli den dominerende kostnaden ved inferens. Du har en flaskehals som vokser proporsjonalt med kontekstlengden – og kontekstvinduene bare fortsetter å vokse.

Hva gjør PRISM annerledes?

PRISM-designet erstatter CPU/GPU-skanningen med optisk broadcast. Spørringen (query-vektoren) kodes om til lys. Det lyset sendes gjennom en passiv optisk splitter som kopierer signalet til alle N blokker på én gang. Hver blokk utfører en analog indreprodukt-beregning i det optiske domenet – det vil si at likheten mellom spørringen og blokk-signaturen beregnes fysisk av lysets interaksjon med chipens struktur, ikke av transistorer som gjør regnestykker ett av gangen.

Fordi lyset reiser gjennom alle blokker parallelt og indreproduktene beregnes analogt, er den effektive kompleksiteten O(1) – uavhengig av kontekstlengden. Det er det fundamentale skiftet.

Tallene designeren oppgir: 944 ganger raskere enn GPU-skanning på 1 million tokens kontekst, og 18 000 ganger lavere energiforbruk. Det siste er kanskje det mest slående – analog fotonikk bruker latterlig lite energi sammenlignet med digitale beregninger på en GPU.

Infografik som sammenligner GPU-skanning O(N) og fotonisk broadcast O(1) for KV-cache-seleksjon i LLM-inferens
GPU-skanningen vokser lineært med kontekstlengden – fotonisk broadcast er konstant uansett antall blokker.

Er dette troverdig, eller er det enda en fotonikk-hype?

Her må man være nøktern. Fotonikk-feltet har en lang tradisjon for lovende resultater i lab-setting som aldri materialiserer seg som produkter. Det er mange grunner til det.

For det første er analog fotonikk analog. Det betyr støy, drift over tid, og presisjonsproblemer. Digital elektronikk kan korrigere feil via redundans og korreksjonskoder – analog optikk er langt mer sårbar. For det andre er integrering mellom det fotoniske og det elektroniske alltid kostbart. Du trenger fortsatt digitale komponenter rundt chippet – A/D-konvertering, driver-elektronikk, kontrolllogikk.

For det tredje er dette et design laget av én person på doktorgradsnivå, ikke en ferdig fabrikasjonsplan med yield-tall og temperaturspesifikasjoner. Tallene på 944x og 18 000x er teoretiske estimater basert på komponentspesifikasjoner – ikke målte resultater fra et fysisk chip.

Det betyr ikke at ideen er dårlig. Det betyr at veien fra interessant PhD-konsept til produksjonsklar chip er lang og kostbar. Se for eksempel på Lightmatter, Luminous Computing, og andre fotonikk-startups som har brukt ti år og hundrevis av millioner dollar på å nærme seg det som er mulig i lab-miljø.

Hvorfor er den underliggende ideen likevel interessant?

Uavhengig av om akkurat denne implementasjonen noen gang blir til silisium, peker PRISM-designet mot et strukturelt problem i nåværende LLM-infrastruktur.

KV-cache-skanningen er et søkeproblem – og søkeproblemer er noe analog maskinvare historisk har hatt fordeler på. Noe av den tidlige forskningen på optisk computing handlet nettopp om assosiativt minne: strukturer som «gjenkjenner» mønstre uten å skanne lineært. Det PRISM gjør konseptuelt er å bringe den ideen inn i en svært spesifikk og veldefinert flaskehals i moderne transformerarkitektur.

Parallelt jobber andre aktører på lignende problemer med ulike metoder. FarmGPU, Lightbits og ScaleFlux demonstrerte nylig en samarbeidsarkitektur som gir 100-280 ganger raskere KV-cache for lang-kontekst-inferens via distribuert lagringshierarki – uten fotoniske komponenter. Nvidia har sitt eget system kalt Inference Context Memory Storage Platform med 5x inferensytelsesforbedring. Tilnærmingene er forskjellige, men retningen er den samme: alle ser at KV-cache-håndtering er neste store optimaliseringsfelt.

Fotonisk chip med laserstråler som sprer seg i viftemønster fra ett punkt til mange mottakere - illustrasjon av optisk broadcast-arkitektur
Prinsippet bak PRISM: ett lyspunkt splitter seg til alle N blokker simultaneously via passiv optisk splitter – ingen sekvensiell skanning nødvendig.

Hva betyr dette for lokal LLM-kjøring?

For de av oss som kjører modeller lokalt er dette foreløpig mest akademisk interessant. KV-cache-skanningsbotlenhalsen er primært et problem i batch-serving på store GPU-klynger – ikke på en enkelt RTX 4090 med én bruker. Men prinsippet er det samme.

Når kontekstvinduene vokser – og de gjør det, Claude har 200 000 tokens, mange modeller nærmer seg million-token-grensen – vil skalering av lokal inferens til lange kontekster kreve smartere løsninger enn å bare kaste mer GPU-minne på problemet. Metoder som RocketKV fra NVIDIA (ICML 2025) og Quest fra MIT adresserer allerede deler av dette i programvare – men det er grenser for hvor mye du kan kutte uten å gå etter fundamentale maskinvareegenskaper.

Jeg har skrevet om relaterte problemer tidligere – blant annet om Groqs LPU-arkitektur som er bygget fra grunnen av for effektiv inferens, og om Nvidias NemoClaw som prøver å optimalisere på programvaresiden. Felles for alle disse er at GPU-arkitekturen ikke er optimal for LLM-inferens – den er bare det vi har tilgjengelig i stor skala nå.

Hva skjer videre med fotoniske AI-akseleratorer?

Feltet er i bevegelse. Nature publiserte en studie tidlig i 2025 om integrerte fotoniske akseleratorer med ultralav latens. Optica rapporterte i 2026 om fotoniske chip som fremskynder sanntidslæring. IEEE-forskning fra 2025 viser 142,9 TOPS per joule for fotoniske systemer mot 0,63 TOPS per joule for tilsvarende elektroniske systemer – en faktor på rundt 230x i energieffektivitet for matrisemultiplikasjon.

Det er disse energitallene som gjør at folk ikke gir opp fotonikk til tross for mange skuffede løfter. Datasentre er energislukende maskiner, og LLM-inferens er en stor og voksende del av forbruket. Hvis fotoniske løsninger kan levere selv en brøkdel av de lovede energiforbedringene i produksjon, er det enorm kommersiell interesse å hente.

PRISM er et smart konsept som bruker fotonisk fysikk til å løse et konkret, identifisert flaskehalsproblem. Om det noen gang blir til et ekte chip er et annet spørsmål – men som demonstrasjon av hvorfor fotoniske løsninger er interessante for LLM-infrastruktur er det et godt eksempel på hva denne forskningsretningen faktisk sikter mot.

1 kommentar
Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

Meld deg på nyhetsbrevet

Få oppdateringer om AI nyhetene rett i inboxen!

Du liker kanskje denne også
Jan Sverre med headphones og lydmikser i boardroom-møte med forvirrede executives

Suno AI Copyright 2026 – Opphavsrett og Rettigheter for AI-Musikk

Kan du tjene penger på Suno-musikk? Her er en praktisk gjennomgang av rettigheter, risiko og hva du bør avklare før publisering.
Claude code terminal interface

Claude Code nå for $20: Rimelig AI-drevet kodehjelp for alle utviklere

Anthropics Claude Code er nå tilgjengelig på $20 Pro-abonnement. Lær hvordan du kan utnytte AI-drevet koding uten store investeringer og hvilke kompromisser du må regne med.
Jan Sverre tester GPT-5.2 ved en transparent OpenAI GPT-skjerm

GPT-5.2: Jeg testet OpenAIs nyeste modell – her er hva som faktisk fungerer

GPT-5.2 er ute med tre versjoner. Jeg har testet thinking-modellen, sammenlignet med 5.1, og funnet ut hva som faktisk er bedre. Her er mine erfaringer.
Jan Sverre profesjonelt fotograf-kvalitet portrett AI-generert bildegenerering

Google NotebookLM

Google NotebookLM er en AI-assistent som gjør dokumenter om til interaktive samtaler, studieguidere og podcasts på norsk. Nå drevet av Gemini 3 Pro med nye funksjoner som infographics, slide decks og Deep Research. Komplett guide til gratis vs. Plus-versjon.