Innhold Vis
Hvis du noen gang har ventet på at en AI-video skal ferdigstilles og tenkt «jeg skulle ønske jeg kunne velge mellom rask-og-grei eller langsom-og-perfekt» – Nvidia hørte deg. AnyFlow er et nytt video-diffusjon-rammeverk bygget på Wan 2.1, og det eneste i sitt slag som lar deg kjøre samme modell med 1, 2, 4, 8 eller opptil 50 inferenssteg – avhengig av hva GPUen din tåler.
Det er en liten detalj som betyr ganske mye i praksis. Normalt er video-AI-modeller trent for et fast antall steg – du kan ikke bare halvere dem uten at kvaliteten krasjer. AnyFlow løser dette ved hjelp av noe som kalles flow maps, en teknikk som lar modellen «forstå» bevegelse og overgang på en måte som fungerer uavhengig av hvor mange steg du faktisk bruker.
Det finnes fire varianter tilgjengelig på HuggingFace – fra den kompakte 1,3B-modellen til den mer kapable 14B-versjonen. Og ja, de er gratis å laste ned – med visse begrensninger.
Hva er AnyFlow og hva gjør det annerledes?
AnyFlow presenterer seg selv som det første any-step video diffusion framework bygget på flow maps. I praksis betyr det at du med én enkelt modell kan velge mellom hurtig generering med lavt stegtall og mer detaljert generering med høyere stegtall – uten å bytte modell.
Tradisjonelle diffusjonsmodeller er trent for å fungere med et bestemt antall steg. Kjører du dem med færre steg enn anbefalt, ser videoen gjerne vag eller artefaktfull ut. AnyFlow bruker en teknikk kalt FAR (Flow Adaptive Refinement) som trener modellen til å håndtere dette spekteret dynamisk. Resultatet er at 4 steg kan gi brukbar kvalitet, mens 20-50 steg gir vesentlig bedre resultat – og alt dette med samme modellvekter.
For de som kjører lokalt på begrenset VRAM er dette svært relevant. En 1,3B-modell med 4 inferenssteg er langt raskere enn en 14B med 50 steg, og nå kan du velge presist ut fra hva du faktisk har å rutte med.

Hvilke modellvarianter finnes?
Nvidia har sluppet fire varianter på HuggingFace, alle basert på Wan 2.1-arkitekturen. Tabellen under viser hva som finnes og hva de støtter:
| Modell | Parametre | Støttede oppgaver | Oppløsning |
|---|---|---|---|
| AnyFlow-FAR-Wan2.1-1.3B | 1,3 milliarder | T2V, I2V, V2V | 480p |
| AnyFlow-FAR-Wan2.1-14B | 14 milliarder | T2V, I2V, V2V | 480p |
| AnyFlow-Wan2.1-T2V-14B | 14 milliarder | Kun T2V | 480p |
| AnyFlow-Wan2.1-T2V-1.3B | 1,3 milliarder | Kun T2V | 480p |
FAR-variantene støtter i tillegg til tekst-til-video også bilde-til-video (I2V) og video-til-video (V2V) – noe som gjør dem mer fleksible for de som vil bruke egne referansebilder eller redigere eksisterende videoklipp.
Felles for alle er at de genererer i 480p. Det er ikke 4K, men det er mer enn godt nok for prototyping og eksperimentering – og det holder minnekravene nede.
Hvordan fungerer flow maps i praksis?
Flow maps er et konsept fra tradisjonell bildeprosessering som representerer bevegelse mellom bilder. I stedet for å lære «hva ser frame 1 ut som og hva ser frame 2 ut som», lærer modellen noe mer abstrakt: hvordan beveger ting seg fra punkt A til punkt B.
AnyFlow bruker dette som grunnlag for en adaptiv distillasjonsteknikk. I stedet for å lage én modell for 4 steg og én for 50 steg, trener Nvidia én enkelt modell som «vet» at den skal oppnå målet uansett stegtall. På 4 steg tar den store sprang. På 50 steg tar den små, presise steg. Kvaliteten skalerer med stegtallet – som forventet – men modellen krasjer ikke ved lave steg slik mange tradisjonelle diffusjonsmodeller gjør.
En annen fordel er at kvaliteten øker monotont med stegtallet. Det er ikke alltid tilfelle med tradisjonelle distillerte modeller, der «sweet spot» gjerne er rundt 4-8 steg og mer faktisk gir dårligere resultat. AnyFlow er designet slik at flere steg konsekvent gir bedre output.

Hva er lisensvilkårene – og kan du bruke det kommersielt?
Her er det viktig å lese liten skrift. AnyFlow er utgitt under NVIDIA One-Way Noncommercial License (NSCLv1). Det betyr at modellen er gratis å laste ned og bruke, men ikke for kommersiell bruk.
Skal du bruke AnyFlow til å lage innhold du tjener penger på, promotere produkter, eller integrere i et kommersielt verktøy, er svaret nei – i hvert fall uten en separat lisensavtale med Nvidia. For research, hobbytesting og personlige prosjekter er det fritt frem.
Det er et mønster vi ser oftere og oftere fra store tech-selskaper: åpne vekter for research, kommersiell bruk krever egne avtaler. Nvidia gjør det samme med flere av sine modeller. Det er ikke nødvendigvis galt, men det begrenser nytteverdien for de som ønsker å bygge produkter på toppen av AnyFlow.
Slik kommer du i gang med AnyFlow lokalt
Forutsetningen er at du har Python og PyTorch installert, og en GPU med nok VRAM. Wan 2.1-baserte modeller er ikke de letteste – 14B-varianten er krevende, mens 1,3B-versjonen er mer tilgjengelig for de med 12-16 GB VRAM.
Koden for å komme i gang med text-to-video er relativt rett frem via Diffusers-biblioteket:
import torch
from diffusers.utils import export_to_video
from far.pipelines.pipeline_far_wan_anyflow import FARWanAnyFlowPipeline
model_id = "nvidia/AnyFlow-FAR-Wan2.1-14B-Diffusers"
pipeline = FARWanAnyFlowPipeline.from_pretrained(
model_id
).to('cuda', dtype=torch.bfloat16)
video = pipeline(
prompt="A majestic eagle soaring over fjords in golden afternoon light.",
height=480,
width=832,
num_frames=81,
num_inference_steps=4, # Juster etter GPU-budsjett
generator=torch.Generator('cuda').manual_seed(42)
).frames[0]
export_to_video(video, "output.mp4", fps=16)
Nøkkelparameteren er num_inference_steps. Sett den til 4 for rask testing, 20 for balanse mellom hastighet og kvalitet, eller 50 hvis du har tid og vil ha best mulig resultat. Det er nettopp denne fleksibiliteten som skiller AnyFlow fra andre Wan-baserte modeller.
Hvis du allerede har jobbet med Wan-baserte pipeline i ComfyUI eller lignende, er overgangen relativt smertefri. AnyFlow bruker samme grunnarkitektur som open source video-pipeline med Wan 2.2 du kanskje kjenner fra tidligere, men med den adapterte distillasjonslogikken på toppen.
Hvordan passer AnyFlow inn i det eksisterende video-AI-landskapet?
Video-AI-modeller har eksplodert det siste halvåret. Wan 2.x fra Alibaba har vært en referanse for open source video-generering, og vi har sett alt fra Happy Horse til Wan 2.6 og Seedance konkurrere om toppplassen på benchmarks.
AnyFlow tar ikke nødvendigvis sikte på å slå alle disse på råkvalitet. Det er heller et verktøy for de som vil ha kontroll. Kan du velge mellom rask generering for iterasjon og langsom generering for endelig output – uten å bytte modell, uten å laste ned nye vekter – er det en stor fordel i praktisk arbeid.
Til sammenligning krever LTX 2.3 – som også er en sterk open source-konkurrent – sitt eget stegtall-oppsett, og optimalisering av LTX-inferens er en separat øvelse. AnyFlow forenkler dette ved å bygge fleksibiliteten inn i selve modellarkitekturen.
Om Nvidia planlegger å gi ut større eller høyere-oppløsnings varianter er uklart. Alle fire nåværende modeller er begrenset til 480p – noe som er greit for testing, men som begrenser bruksområdet for produksjonsarbeid. Det vil ikke overraske meg om det kommer oppdateringer her.
Inntil videre er AnyFlow et interessant tilskudd til open source video-AI-verktøykassen – spesielt for de som vil eksperimentere med Wan-arkitekturen og vil ha enkel kontroll over ytelse versus kvalitet. Last ned, test med lave steg, skru opp når du trenger det.