Du trenger ikke et abonnement og du trenger ikke å sende bildene dine ut av huset for å lage AI-video med ditt eget ansikt. Jeg har brukt den siste tiden på å bygge dette helt lokalt på egen maskin – ComfyUI, en åpen videomodell (LTX-2.3) og en teknikk som holder ansikt, klær og miljø konsistent fra klipp til klipp. Ingen sky, ingen kredittkort som trekkes hver måned, ingen «der forsvant referansebildet mitt til en server et sted».

Skybaserte videomodeller er gode, men de har to problemer hvis du faktisk vil bruke ditt eget ansikt om og om igjen: du betaler per generering, og bildene dine av deg selv ligger på noen andres servere. Lokalt slipper du begge deler – du eier maskinen, du eier filene, og du kjører så mange forsøk du orker uten at det koster noe ekstra utover strømregningen.

Det jeg skal vise deg her er ikke plug-and-play. Det er fikling – noder som skal kobles riktig, filer som skal havne i riktig mappe, og minst én kveld der du lurer på hvorfor GPU-en jobber for fullt uten at noe skjer. Men når det først sitter, kjører du video med konsistent karakter på under tre minutter per klipp, på maskinvare du allerede eier.

Hva trenger du for å kjøre dette selv?

Kort svar: et grafikkort med minst 8 GB VRAM (jeg kjører på et 24 GB-kort, som en RTX 4090, og det gjør prosessen mye mer behagelig), en isolert ComfyUI-instans, og noen modellfiler du laster ned én gang. Selve motoren er LTX-2.3 – en åpen tekst/bilde-til-video-modell fra Lightricks på 22 milliarder parametere, som håndterer både bilde og lyd. Den kan du laste ned og kjøre uten å be noen om lov.

Det som gjør at ansiktet ditt faktisk holder seg fra klipp til klipp, er en egen komponent kalt Ingredients IC-LoRA. Dette er viktig å forstå riktig: det er ikke en trent karakter-LoRA der du mater inn hundre bilder av deg selv og venter i timevis. Det er en «in-context»-LoRA – den leser ett enkelt referansebilde (et såkalt referanseark, mer om det under) og bruker det som fasit for hvordan karakteren, klærne og miljøet skal se ut, mens den genererer helt nye klipp med ny bevegelse og nytt kamera. Ingen trening, ingen ventetid utover selve genereringen.

Modellfilene du trenger, ligger åpent på Hugging Face – transformeren i en kvantisert utgave (mer om hvorfor det er avgjørende under), video-VAE-en, en Gemma-tekstencoder og selve IC-LoRA-en. Ingen av delene krever betalt tilgang eller API-nøkkel. Nøyaktig hvilke filer, hvor store de er og hvilken mappe hver enkelt skal i, får du i tabellen lenger nede – regn med rundt 25-30 GB til modellfiler totalt.

Hvorfor teller kvantisering mer enn regnekraft her?

Dette er den mest overraskende lærdommen fra hele prosjektet, og den er verdt et eget avsnitt fordi jeg ikke har sett den forklart noe sted på norsk. Første gang jeg kjørte LTX-2.3 med transformeren i fp8-format, tok en fire sekunders video 67 minutter å generere. GPU-en viste 100 % last i overvåkningsverktøyet, men strømforbruket lå på beskjedne 89 watt – et 4090-kort under ekte beregning trekker gjerne 350 watt eller mer.

Det tallet forteller hele historien: kortet gjorde ikke tungt regnearbeid, det ventet. VRAM-en viste seg å være helt full (24 090 av 24 564 MiB brukt), så modellen kunne ikke ligge samlet på kortet – den ble delvis «offloadet» til vanlig RAM og streamet inn og ut kontinuerlig. Det er minne-flaskehalsen som spiser tiden, ikke selve regnekraften i chipen.

Løsningen var å bytte transformeren til en GGUF Q4-kvantisert versjon på 13,3 GB i stedet for fp8-utgaven. Med rundt 11 GB ledig VRAM etter at modellen var lastet, forsvant offloadingen helt – og de samme 4 sekundene tok under tre minutter. Fra 67 minutter til under 3, uten å røre en eneste innstilling i selve samplingen (CFG 1, 8 steg lå allerede optimalt).

Konklusjonen: på et 24 GB-kort er modellens fotavtrykk i minnet flaskehalsen, ikke hvor kraftig kortet ditt er. En mindre kvantisert modell (GGUF Q4 eller Q6) slår ofte en «finere» fp8-versjon rett og slett fordi den faktisk får plass. Vil du ha skarpere resultat på finaler når du har tid, går du opp til Q6 eller Q8 – men for eksperimentering er Q4 den store fart-gevinsten.

Modellfilene – hva du laster ned og hvor det skal ligge

Her er hele fillisten. Alt ligger åpent, ingenting krever betalt tilgang eller API-nøkkel. Last hver fil ned og legg den i mappen som står i tabellen – så peker du loader-nodene i workflowen mot filnavnene etterpå.

RolleFilMappeKilde (Hugging Face)
Transformer (modellen)ltx-2.3-22b-dev-Q4_K_M.gguf (13,3 GB)models/unet/unsloth/LTX-2.3-GGUF
Video-VAELTX23_video_vae_bf16.safetensorsmodels/vae/Kijai/LTX2.3_comfy
Audio-VAELTX23_audio_vae_bf16.safetensorsmodels/vae/Kijai/LTX2.3_comfy
Distilled-LoRA (fart)ltx-2.3-22b-distilled-1.1_lora-dynamic_fro09_avg_rank_111_bf16.safetensors (2,55 GB)models/loras/Kijai/LTX2.3_comfy
Ingredients IC-LoRAltx-2.3-22b-ic-lora-ingredients-0.9.safetensorsmodels/loras/Comfy-Org/ltx-2.3 (åpent mirror)
Tekstencoder (Gemma)gemma_3_12B_it_fp4_mixed.safetensors (8,8 GB)models/text_encoders/Kijai/LTX2.3_comfy
Text-projection (connector)ltx-2.3_text_projection_bf16.safetensorsmodels/text_encoders/Kijai/LTX2.3_comfy

Transformeren finnes i flere kvantiseringer: Q4_K_M (13,3 GB) er den store fart-gevinsten og det jeg anbefaler å starte med. Vil du ha skarpere finaler når du har tid og ledig VRAM, går du opp til Q6_K (16,5 GB) eller Q8_0 (21,2 GB). Ingredients IC-LoRA-en finnes også bak en lisens-vegg hos Lightricks, men det åpne mirroret hos Comfy-Org er identisk og krever ingen innlogging.

Custom nodes du må ha installert

LTX-2.3 og IC-LoRA-en bruker noder som ikke følger med ComfyUI i utgangspunktet. Installer disse (enkleste vei er ComfyUI-Manager → Install missing custom nodes etter at du har åpnet workflowen, så finner den selv det som mangler):

  • ComfyUI-LTXVideo – selve LTX-2-sampleren, IC-LoRA-loaderen og «guide»-nodene. Den viktigste. Hold den oppdatert til nyeste, ellers mangler de nye ingredients-nodene.
  • ComfyUI-KJNodes – hjelpenoder LTX-2-lastingen krever, blant annet VAELoaderKJ.
  • ComfyUI-GGUF – gir UnetLoaderGGUF, som er det du laster den kvantiserte transformeren med.
  • ComfyUI-VideoHelperSuite – laster referansearket inn og lagrer ferdig video ut (installeres via Manager).
  • (Valgfritt) ComfyUI-WanVideoWrapper / FlashVSR hvis du senere vil oppskalere til 4K.

Steg for steg: fra tom mappe til første klipp

  1. Sett opp en egen, isolert ComfyUI-instans i sin egen mappe. Har du ikke ComfyUI fra før, laster du ned den portable Windows-utgaven fra comfy.org, pakker den ut i sin egen mappe og starter den (den åpner seg på en lokal adresse i nettleseren, typisk http://127.0.0.1:8188). Bruk en egen instans til akkurat dette oppsettet, og kjør bare én ComfyUI om gangen – to instanser slåss om VRAM-en.
  2. Oppdater ComfyUI-kjernen og alle nodene til nyeste (Manager → Update All). LTX-2.3-VAE-en krever en ganske fersk kjerne; en gammel ComfyUI klarer den rett og slett ikke.
  3. Legg modellfilene i mappene fra tabellen over.
  4. Åpne den offisielle ingredients-workflowenLTX-2.3_ICLoRA_Ingredients_Single_Stage_Distilled.json, som følger med ComfyUI-LTXVideo under example_workflows. Blir noder røde/manglende: Manager → Install missing → restart.
  5. Pek loader-nodene mot dine filnavn, last opp referansearket i LoadImage-noden, skriv den todelte prompten (mer om den under), sett oppløsning og frames – og trykk Queue.

De kritiske innstillingene – her sitter det som gjør eller ødelegger

Dette er punktene som skiller «det funker på under tre minutter» fra «det henger i en time eller kræsjer». Bruk dem som en sjekkliste når du kobler opp workflowen:

  • Last transformeren med UnetLoaderGGUF, ikke CheckpointLoaderSimple. Dette er fart-nøkkelen (se kvantiserings-avsnittet over).
  • Bruk VAELoaderKJ til video-VAE-en – ikke standard VAELoader. Standard-loaderen dropper safetensors-metadataen som holder arkitektur-configen, og du får feil/rar VAE. VAELoaderKJ sender metadataen med og laster riktig.
  • Tiny-VAE (taeltx2_3) duger ikke for IC-LoRA-guiden – den regner referansens dimensjoner feil og du får en «sizes must match»-feil. Bruk den fulle VAE-en.
  • LoRA-styrke: distilled-LoRA på 0.5, Ingredients IC-LoRA på 1.4 (juster 1.0-1.6 ved behov).
  • Sampler: CFG 1, 8 steg (distilled-oppsettet). Ikke rør den – den er allerede optimal.
  • Oppløsning følger referansearket via resize-noden. Høyden må gi et partall latent (dele på 32) – 704 (720p-klasse) er trygt, 544 feiler. Aldri under 720p.
  • Frames settes i en PrimitiveInt-node: 97 for en rask test, opp til 121 eller 241 for lengre klipp. Frame-antallet er den største fart-spaken etter modellstørrelsen.

Referansearket – selve nøkkelen til at ansiktet ditt faktisk ligner

Hvis du bare tar med deg én ting fra denne artikkelen, la det være dette: modellen kan bare holde det den faktisk ser i referansearket. Alt annet – workflow, innstillinger, kvantisering – er sekundært sammenlignet med hvor godt dette ene bildet er bygget.

Referanseark (character sheet) med flere paneler av samme person brukt til å style konsistent AI-video lokalt i ComfyUI
Slik ser mitt eget referanseark ut – flere vinkler av samme ansikt og antrekk, isolert på svart bakgrunn.

Et referanseark (også kalt «ingredients sheet» eller «turnaround») er ett enkelt bilde satt sammen av flere paneler på en nøytral, helst svart bakgrunn. IC-LoRA-en leser panelene i konteksten og bruker dem som fasit mens den genererer nye klipp. Tenk på det som å gi modellen et designark i stedet for ett tilfeldig foto – det er derfor karakteren, klærne og bakgrunnen holder seg stabile selv når kamera, positur og handling endrer seg helt.

Selve karakterpanelet er det viktigste enkeltelementet i hele arket, fordi identitet i praksis kommer fra ansikts-piksler. Du vil ha:

  • Ett stort, skarpt frontansikt – dette ene panelet betyr mest for om resultatet ligner.
  • 3/4-vinkler fra begge sider, gjerne en ren profil i tillegg.
  • Helfigur forfra og bakfra – dette låser klær, kroppsform og hår sett bakfra.
  • Samme antrekk og samme lyssetting i alle paneler. Ulikt lys mellom panelene «forvirrer» modellen og gir en flakkende identitet.

Spesifikasjonene som faktisk betyr noe: sikt mot 16:9-format (matcher video-outputen), minst 1536 piksler på den lange siden – gjerne 1920-2560, ren svart bakgrunn, og maks rundt fire elementer totalt i arket (karakter pluss et par rekvisitter eller et miljø). Går du over fire elementer, faller suksessraten kraftig. Færre og større paneler slår alltid mange små – hvert element trenger nok piksler å jobbe med.

Hvordan lager du selve arket? Den beste metoden for et ekte ansikt (som ditt eget) er rett og slett å ta bilder fra flere vinkler med samme lys og antrekk, klippe dem ut på svart bakgrunn og montere dem i et rutenett i et vanlig bilderedigeringsverktøy. Det gir høyest likhet fordi det faktisk er deg. Et alternativ er å bruke en bilderedigeringsmodell (for eksempel en Nano Banana-variant eller Qwen-Image-Edit) til å generere ekstra vinkler ut fra ett godt frontfoto – en hybrid av ekte frontbilde og AI-genererte hjelpevinkler dekker som regel begge behov godt.

Én ting arket ikke kan gjøre: styre stemmen din. Ingredients IC-LoRA holder kun den visuelle identiteten. Lyd og dialekt genereres friskt hver gang og krever en egen stemme-kloning hvis du vil ha din egen stemme med i klippet.

Hvordan er selve prompten bygget opp?

Modellen er trent på et bestemt, todelt promptformat, og du bør følge det for å få mest ut av referansearket:

Reference sheet: her beskriver du panelene som faktisk finnes i arket ditt – karakteren, antrekket, eventuelle rekvisitter og miljøet.
Generated video: her beskriver du handlingen, kamerabevegelsen, lyset og stemningen i klippet som skal genereres.

Skriv gjerne prompten manuelt til å begynne med, så du forstår hva som styrer hva. Vil du automatisere det, kan en lokal språkmodell (kjørt gjennom for eksempel Ollama) formatere fritekst om til dette todelte oppsettet automatisk – praktisk når du skal generere mange varianter etter hverandre.

For selve videokvaliteten er to ting avgjørende: gå aldri under 720p (704 i høyden i praksis), og hold framingen tett i prompten – noe i retning av «medium close-up, camera slowly pushing in toward his face». Vidvinkel gjør ansiktet til for få piksler til at identiteten holder seg. Beskriv også ansiktsuttrykket eksplisitt i prompten, ellers kan konsistensen bli så sterk at ansiktet rett og slett «fryser» i klippet.

Som negativ prompt fungerer en enkel standard godt til å holde de verste artefaktene unna: worst quality, inconsistent motion, blurry, jittery, distorted.

Vanlige fallgruver

Noen ting går igjen når resultatet skuffer, og de aller fleste er enkle å fikse når du vet hva du skal se etter:

  • Lite ansikt i arket gir «ligner ikke» – løs det med et større, tydeligere frontansikt-panel og høyere oppløsning.
  • Rotete eller fotografisk bakgrunn gjør at modellen drar med seg bakgrunnselementer den ikke skal ha – bruk ren svart bakgrunn.
  • For mange elementer (over fire) gjør resultatet ustabilt – modellen bytter eller forvrenger ting den ikke rekker å holde styr på.
  • Ulikt lys per panel gir en «flakkende» identitet mellom klippene – hold samme lyssetting gjennom hele arket.
  • Vidvinkel i prompten gjør ansiktet til for få piksler – hold deg til tett framing.

Og en generell påminnelse fra egen erfaring: hold selve bevegelsen i klippet enkel. Grunnmodellen sliter fortsatt med aggressive handlinger, og da ryker konsistensen uansett hvor godt referansearket ditt er bygget.

Orker du ikke fikle manuelt?

Hvis nodegraf og filplassering ikke er din greie: start en coding-agent som Claude Code (eller en tilsvarende coding-agent du foretrekker) i en tom mappe, gi den denne artikkelen som referanse, og be den sette opp en isolert ComfyUI-instans med riktige modellfiler og noder etter oppskriften over. Den kan følge stegene her steg for steg og gjøre mye av det praktiske arbeidet for deg – du slipper ikke unna nedlastingene, men selve oppkoblingen kan den ta seg av.

Vil du heller se dette i sammenheng med andre måter å lage AI-video på, har jeg skrevet en komplett guide til å lage video med AI som dekker både sky- og lokale løsninger. Og hvis du vil dykke dypere i selve LTX-2.3-modellen og hva den takler av lengde og oppløsning, har jeg en egen sak om LTX-2.3 og 20 sekunders video på 2,5 minutter lokalt.

Skal du redigere klippene i etterkant – bytte bakgrunn, endre en detalj eller trimme en scene – kan det være verdt å se på tekstbasert videoredigering med AI som et supplement til selve genereringen.

Vil du hoppe over selve oppsettet? Jeg har satt sammen den ferdig-konfigurerte ComfyUI-workflow-fila mi – alle noder koblet riktig, alle modellreferanser på plass – så du slipper å bygge grafen fra bunnen selv. Den selger jeg her: Last ned workflow-fila på Gumroad.

Ofte stilte spørsmål

Trenger jeg en RTX 4090 for å gjøre dette?

Nei. LTX-2.3 kan kjøres ned mot 8 GB VRAM med riktig kvantisering (GGUF Q4). Et 24 GB-kort gjør prosessen raskere og mer behagelig, men er ikke et krav for å komme i gang.

Koster verktøyene noe?

Selve ComfyUI, LTX-2.3 og Ingredients IC-LoRA er alle åpne og gratis å laste ned. Eneste kostnad er strømmen maskinen din bruker mens den genererer, og eventuelt tiden det tar å sette opp instansen selv.

Kan jeg bruke en annen person sitt ansikt i referansearket?

Nei, ikke uten samtykke fra vedkommende. Bruk ditt eget ansikt eller en person som uttrykkelig har godkjent at bilder av dem brukes til dette formålet.

Funker dette på Mac?

ComfyUI kjører på Mac med Apple Silicon, men LTX-2.3 er tungt optimalisert for CUDA på Nvidia-kort. Ytelsen på Mac vil være vesentlig lavere, og GGUF-fordelen beskrevet her er testet på Nvidia-maskinvare.

Hvor lange klipp kan jeg lage?

Med kvantisert oppsett genererer du typisk klipp på noen sekunder om gangen på under tre minutter. Lengre klipp (over 20 sekunder) krever mer VRAM og genereringstid, men er fullt mulig med samme oppsett.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

Meld deg på nyhetsbrevet

Få oppdateringer om AI nyhetene rett i inboxen!

Du liker kanskje denne også
Jan Sverre arbeider med Suno AI musikk-generering på datamaskinen, kreativt workspace med hodetelefoner

Suno AI – 150 Låter Testet: Hva Funker og Hva Er Bortkastet Tid

Jeg testet 150 Suno-låter og fant tydelige mønstre. Her er hva som faktisk gir kvalitet, og hva som bare kaster bort tid.
Jan Sverre styrer et digitalt kontrollpanel omgitt av Claude AI-symboler og glødende lysstriper i et mørkt rom

Claude AI – pris, funksjoner og norsk guide (2026)

Alt om Claude AI i 2026 – priser i norske kroner, Claude Pro vs Max, Claude Code, og ærlig sammenligning med ChatGPT. Komplett norsk guide fra en som bruker Claude daglig.
Jan Sverre med headphones og lydmikser i boardroom-møte med forvirrede executives

Suno AI Copyright 2026 – Opphavsrett og Rettigheter for AI-Musikk

Kan du tjene penger på Suno-musikk? Her er en praktisk gjennomgang av rettigheter, risiko og hva du bør avklare før publisering.
Jan Sverre sitter ved sitt kraftige AI-workstation oppsett med ultrawide skjerm og flere PC-er som kjører Ollama og lokale LLM-modeller

Ollama Guide – Kjør AI Gratis og Lokalt på Din Egen PC (2026)

Komplett guide til Ollama og lokale LLM-er på RTX 4090. Lær quantisering, Hugging Face import, beste modeller (Gemma 3, Qwen 3), GDPR-fordeler og full kostnadskontroll.