Innhold Vis
NVIDIA har sluppet SANA-WM, en open source videomodell med 2,6 milliarder parametre som genererer et minutt med 720p-video på én enkelt GPU. Modellen kjører på en RTX 5090 og leverer presis 6-DoF kamerakontroll – det vil si full kontroll over kamerabevegelse i alle seks frihetsgrader. Det er et steg fremover for lokal video-AI.
Det som gjør SANA-WM interessant er ikke bare at den er open source under Apache 2.0-lisens, men kombinasjonen av kvalitet og tilgjengelighet. Tidligere har modeller på dette nivået krevd datasentre med hundrevis av GPU-er bare for inferens. SANA-WM er trent på 64 H100-er over 18,5 dager, men kan kjøres på én forbrukergpu.
Modellen er lagt ut på NVlabs/Sana på GitHub og papiret er publisert på arXiv:2605.15178. Her er det jeg synes er mest spennende med den.
Hva er SANA-WM, og hva er en world model?
En world model er en AI-modell som ikke bare genererer bilder eller videoklipp isolert, men som forstår og simulerer hvordan verden ser ut fra et kamera i bevegelse. Tenk på det som en modell som «vet» at hvis kameraet panorerer til venstre, skal det som var ute av bilde til venstre nå komme inn i bildet – konsistent med resten av scenen.
SANA-WM er NVIDIAs forsøk på å bygge akkurat det, kompakt nok til å kjøre lokalt. Modellen er bygget på en Diffusion Transformer-arkitektur og er trent på et spesialannotert datasett med 212 975 videoklipp fra syv ulike kilder, inkludert SpatialVID-HQ, DL3DV og OmniWorld.
Det som skiller den fra tidligere videomodeller er den innebygde kamerakontrollmekanismen. De fleste videomodeller kan generere bevegelse, men har begrenset kontroll over kameraets eksakte posisjon og bevegelsesretning. SANA-WM gir 6-DoF kamerakontroll – pitch, yaw, roll, og translasjon i alle tre akser – noe som gjør det mulig å planlegge presise kamerabaner på forhånd.

Hvordan er arkitekturen bygget opp?
SANA-WM kombinerer fire tekniske løsninger for å håndtere de klassiske problemene med lang video-generering: minnebruk, visuell drift over tid, og presis kamerakontroll.
Den viktigste innovasjonen er hybrid linear attention med Gated DeltaNet (GDN). Standard softmax attention vokser kvadratisk med antall frames – noe som gjør lange videoer svært kostbare å generere. GDN holder en rekurrent tilstand med konstant størrelse D×D per frame, uavhengig av videolengden. Modellen kombinerer 15 GDN-blokker med 5 softmax attention-blokker for å balansere effektivitet og bildekvalitet.
Kamerakontrollsystemet er todelt: en UCPE-gren som håndterer global kamerabane på latentnivå, og en Plücker-gren som tar seg av detaljert intra-stride kamerabevegelse med 48-kanal encoding. Sammen gjør dette at modellen kan følge presise kamerabaner uten at kvaliteten forfaller mot slutten av klippet.
Genererings-pipelinen er to-stegs. SANA-WM produserer det initiale outputet, og deretter tar en 17 milliarder parameter LTX-2-refiner med rank-384 LoRA over for å redusere visuell drift. Jeg har selv testet LTX-2 lokalt tidligere – det er en solid open source-modell – og det er interessant å se NVIDIA velge akkurat den som refiner.
Hva er ytelsen sammenlignet med andre modeller?
Tallene fra papiret er ganske klare. På gjennomstrømning leverer SANA-WM 22,0 videoer per time. LingBot-World leverer 0,6 og HY-WorldPlay leverer 1,1 videoer per time. Det er altså 36 ganger høyere gjennomstrømning enn nærmeste konkurrent i denne klassen.
På kameranøyaktighet – målt i rotasjonsfeil (RotErr) – scorer SANA-WM 4,50°/8,34° mot LingBot-Worlds 10,47°/18,99° og HY-WorldPlays 17,89°/35,46°. Lavere er bedre her. Videokvaliteten målt via VBench er 80,62/81,89 – på linje med LingBot-World og langt over HY-WorldPlay (68,82/70,46).
Med NVFP4-kvantisering på en RTX 5090 genererer den et 60-sekunders klipp på 34 sekunder. Det er raskere enn sanntid, noe som er uvanlig for videomodeller på dette kvalitetsnivået.

Hva betyr dette for lokal video-AI?
Det interessante spørsmålet er om SANA-WM faktisk endrer noe for folk som vil generere video lokalt. For de fleste er RTX 5090 fortsatt dyrt utstyr – men det er likevel et signal om retningen bransjen beveger seg.
Sammenligningen med FastVideo er relevant her. FastVideo klarte live-redigering av 30-sekunders 1080p-video med 4,5 sekunders latens – et annet bruksområde, mer fokusert på interaktiv redigering. SANA-WM er mer rettet mot planlagt video-generering med presis kamerakontroll. De to prosjektene løser forskjellige problemer.
Det som gjør SANA-WM spesielt interessant er kombinasjonen av Apache 2.0-lisensen og den kompakte størrelsen. 2,6 milliarder parametre er ikke lite, men det er håndterbart for folk med moderne forbrukerhardware. For sammenligning har LTX-2 – som er kongen av open source video-AI – lignende tilgjengelighet, men fokuserer ikke på world modelling og kamerakontroll på samme måte.
World models med presis kamerakontroll har mange potensielle bruksområder utover underholdning: autonome kjøretøy, robotikk, spillutvikling, arkitekturvisualisering. Når slike modeller er åpent tilgjengelige og kjørbare på enkelt-GPU, er det ikke lenger bare de store selskapene som kan eksperimentere med teknologien.
Hvordan kommer du i gang?
Modellen er tilgjengelig via NVlabs/Sana på GitHub under Apache 2.0. Det betyr at du kan bruke den fritt, også kommersielt, så lenge du følger lisensbetingelsene. Datasett-annotasjonspipelinen som ble brukt til trening er også åpen, noe som gjør det mulig å finjustere modellen på egne videoklipp.
For de som er nye til video-AI og vil forstå begrepene bedre, er AI-ordlista en god start. Diffusion Transformer, LoRA og latent space er begreper som dukker opp overalt i dette feltet.
SANA-WM er et godt eksempel på at open source video-AI beveger seg fort. For et år siden var et minutt konsistent 720p-video med kamerakontroll forbeholdt proprietære modeller med enorme ressurskrav. Nå er det tilgjengelig for hvem som helst med en moderne GPU og lyst til å eksperimentere.