NVIDIA har sluppet SANA-WM, en open source videomodell med 2,6 milliarder parametre som genererer et minutt med 720p-video på én enkelt GPU. Modellen kjører på en RTX 5090 og leverer presis 6-DoF kamerakontroll – det vil si full kontroll over kamerabevegelse i alle seks frihetsgrader. Det er et steg fremover for lokal video-AI.

Det som gjør SANA-WM interessant er ikke bare at den er open source under Apache 2.0-lisens, men kombinasjonen av kvalitet og tilgjengelighet. Tidligere har modeller på dette nivået krevd datasentre med hundrevis av GPU-er bare for inferens. SANA-WM er trent på 64 H100-er over 18,5 dager, men kan kjøres på én forbrukergpu.

Modellen er lagt ut på NVlabs/Sana på GitHub og papiret er publisert på arXiv:2605.15178. Her er det jeg synes er mest spennende med den.

Hva er SANA-WM, og hva er en world model?

En world model er en AI-modell som ikke bare genererer bilder eller videoklipp isolert, men som forstår og simulerer hvordan verden ser ut fra et kamera i bevegelse. Tenk på det som en modell som «vet» at hvis kameraet panorerer til venstre, skal det som var ute av bilde til venstre nå komme inn i bildet – konsistent med resten av scenen.

SANA-WM er NVIDIAs forsøk på å bygge akkurat det, kompakt nok til å kjøre lokalt. Modellen er bygget på en Diffusion Transformer-arkitektur og er trent på et spesialannotert datasett med 212 975 videoklipp fra syv ulike kilder, inkludert SpatialVID-HQ, DL3DV og OmniWorld.

Det som skiller den fra tidligere videomodeller er den innebygde kamerakontrollmekanismen. De fleste videomodeller kan generere bevegelse, men har begrenset kontroll over kameraets eksakte posisjon og bevegelsesretning. SANA-WM gir 6-DoF kamerakontroll – pitch, yaw, roll, og translasjon i alle tre akser – noe som gjør det mulig å planlegge presise kamerabaner på forhånd.

SANA-WM Diffusion Transformer arkitektur med hybrid linear attention blokker
SANA-WM kombinerer 15 GDN-blokker med 5 softmax attention-blokker i en hybrid Diffusion Transformer-arkitektur

Hvordan er arkitekturen bygget opp?

SANA-WM kombinerer fire tekniske løsninger for å håndtere de klassiske problemene med lang video-generering: minnebruk, visuell drift over tid, og presis kamerakontroll.

Den viktigste innovasjonen er hybrid linear attention med Gated DeltaNet (GDN). Standard softmax attention vokser kvadratisk med antall frames – noe som gjør lange videoer svært kostbare å generere. GDN holder en rekurrent tilstand med konstant størrelse D×D per frame, uavhengig av videolengden. Modellen kombinerer 15 GDN-blokker med 5 softmax attention-blokker for å balansere effektivitet og bildekvalitet.

Kamerakontrollsystemet er todelt: en UCPE-gren som håndterer global kamerabane på latentnivå, og en Plücker-gren som tar seg av detaljert intra-stride kamerabevegelse med 48-kanal encoding. Sammen gjør dette at modellen kan følge presise kamerabaner uten at kvaliteten forfaller mot slutten av klippet.

Genererings-pipelinen er to-stegs. SANA-WM produserer det initiale outputet, og deretter tar en 17 milliarder parameter LTX-2-refiner med rank-384 LoRA over for å redusere visuell drift. Jeg har selv testet LTX-2 lokalt tidligere – det er en solid open source-modell – og det er interessant å se NVIDIA velge akkurat den som refiner.

Hva er ytelsen sammenlignet med andre modeller?

Tallene fra papiret er ganske klare. På gjennomstrømning leverer SANA-WM 22,0 videoer per time. LingBot-World leverer 0,6 og HY-WorldPlay leverer 1,1 videoer per time. Det er altså 36 ganger høyere gjennomstrømning enn nærmeste konkurrent i denne klassen.

På kameranøyaktighet – målt i rotasjonsfeil (RotErr) – scorer SANA-WM 4,50°/8,34° mot LingBot-Worlds 10,47°/18,99° og HY-WorldPlays 17,89°/35,46°. Lavere er bedre her. Videokvaliteten målt via VBench er 80,62/81,89 – på linje med LingBot-World og langt over HY-WorldPlay (68,82/70,46).

Med NVFP4-kvantisering på en RTX 5090 genererer den et 60-sekunders klipp på 34 sekunder. Det er raskere enn sanntid, noe som er uvanlig for videomodeller på dette kvalitetsnivået.

SANA-WM 6-DoF kamerakontroll - presis kamerabane for video generering
6-DoF kamerakontroll gir full kontroll over kamerabevegelse i alle seks frihetsgrader – pitch, yaw, roll og translasjon langs alle tre akser

Hva betyr dette for lokal video-AI?

Det interessante spørsmålet er om SANA-WM faktisk endrer noe for folk som vil generere video lokalt. For de fleste er RTX 5090 fortsatt dyrt utstyr – men det er likevel et signal om retningen bransjen beveger seg.

Sammenligningen med FastVideo er relevant her. FastVideo klarte live-redigering av 30-sekunders 1080p-video med 4,5 sekunders latens – et annet bruksområde, mer fokusert på interaktiv redigering. SANA-WM er mer rettet mot planlagt video-generering med presis kamerakontroll. De to prosjektene løser forskjellige problemer.

Det som gjør SANA-WM spesielt interessant er kombinasjonen av Apache 2.0-lisensen og den kompakte størrelsen. 2,6 milliarder parametre er ikke lite, men det er håndterbart for folk med moderne forbrukerhardware. For sammenligning har LTX-2 – som er kongen av open source video-AI – lignende tilgjengelighet, men fokuserer ikke på world modelling og kamerakontroll på samme måte.

World models med presis kamerakontroll har mange potensielle bruksområder utover underholdning: autonome kjøretøy, robotikk, spillutvikling, arkitekturvisualisering. Når slike modeller er åpent tilgjengelige og kjørbare på enkelt-GPU, er det ikke lenger bare de store selskapene som kan eksperimentere med teknologien.

Hvordan kommer du i gang?

Modellen er tilgjengelig via NVlabs/Sana på GitHub under Apache 2.0. Det betyr at du kan bruke den fritt, også kommersielt, så lenge du følger lisensbetingelsene. Datasett-annotasjonspipelinen som ble brukt til trening er også åpen, noe som gjør det mulig å finjustere modellen på egne videoklipp.

For de som er nye til video-AI og vil forstå begrepene bedre, er AI-ordlista en god start. Diffusion Transformer, LoRA og latent space er begreper som dukker opp overalt i dette feltet.

SANA-WM er et godt eksempel på at open source video-AI beveger seg fort. For et år siden var et minutt konsistent 720p-video med kamerakontroll forbeholdt proprietære modeller med enorme ressurskrav. Nå er det tilgjengelig for hvem som helst med en moderne GPU og lyst til å eksperimentere.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

Meld deg på nyhetsbrevet

Få oppdateringer om AI nyhetene rett i inboxen!

Du liker kanskje denne også
Jan Sverre arbeider med Suno AI musikk-generering på datamaskinen, kreativt workspace med hodetelefoner

Suno AI – 150 Låter Testet: Hva Funker og Hva Er Bortkastet Tid

Jeg testet 150 Suno-låter og fant tydelige mønstre. Her er hva som faktisk gir kvalitet, og hva som bare kaster bort tid.
Jan Sverre med headphones og lydmikser i boardroom-møte med forvirrede executives

Suno AI Copyright 2026 – Opphavsrett og Rettigheter for AI-Musikk

Kan du tjene penger på Suno-musikk? Her er en praktisk gjennomgang av rettigheter, risiko og hva du bør avklare før publisering.
Jan Sverre styrer et digitalt kontrollpanel omgitt av Claude AI-symboler og glødende lysstriper i et mørkt rom

Claude AI – pris, funksjoner og norsk guide (2026)

Alt om Claude AI i 2026 – priser i norske kroner, Claude Pro vs Max, Claude Code, og ærlig sammenligning med ChatGPT. Komplett norsk guide fra en som bruker Claude daglig.
Jan Sverre riding a dinosaur in safari outfit, photorealistic AI-generated image demonstrating Nano Banana Pro capabilities

Jeg testet Nano Banana Pro: AI som faktisk skriver norsk i bilder

Endelig! En AI som kan generere norsk tekst i bilder med 94% nøyaktighet. Jeg testet Nano Banana Pro grundig – her er resultatene.