LipDub er et nytt open source-verktøy for lipsync fra Lightricks, bygget direkte på LTX-2.3. I stedet for den vanlige to-stegs-flyten – generer lyd, fest den på etterpå – gjør LipDub begge deler i én enkelt pasning. Du gir det en kildevideo og en ny tekstprompt, og modellen regenererer dialog og leppebevegelser samtidig. Alt annet – ansiktsutseende, stemmekvalitet, tone og mimikk – bevares.

Prosjektet er et resultat av samarbeid mellom forskere fra Tel Aviv University og Lightricks, presentert på SIGGRAPH 2026. Koden og modellvektene er publisert som open source under ltx-2-community-license på Hugging Face. Beta-versjonen støtter 1080p Full HD, klipp opptil 8 sekunder og én taler om gangen.

For alle som har eksperimentert med LTX Video 2.3 er dette en direkte utvidelse av det samme rammeverket – nå med ekte lipsync i steden for den separate LatentSync-flyten mange har brukt til nå.

Hva er IC-LoRA, og hvorfor er det smartere enn vanlig lipsync?

IC-LoRA står for Instruction-guided Control LoRA – en lav-rang adapter som legger kontrollerbare instruksjoner oppå en base-modell uten å trene hele modellen på nytt. Det er langt mer effektivt enn full fine-tuning, og det er nettopp derfor LipDub kan distribueres som en kompakt safetensors-fil som lastes inn i LTX-2.3.

Den tekniske tilnærmingen er det interessante her. Tradisjonelle lipsync-verktøy som Wav2Lip og LatentSync tar ett ferdig video-klipp og forsøker å «lime på» ny munndynamikk i etterkant. Det ser sjelden naturlig ut fordi de to lagene – det originale bildet og den nye munnen – ble generert uavhengig av hverandre.

LipDub tar en annen vei: den bruker den innebygde audio-visuelle forståelsen i LTX-2.3 til å regenerere leppe-regionen i én enkelt diffusjonspasning. Lyd og bevegelse genereres simultant, noe som gir mye bedre kohesjon mellom det nye lydspøret og ansiktsbevegelsene. Resultatet skal se ut som om personen faktisk sa den nye replikken – ikke som en etterligning klebet på toppen.

Paperet bak prosjektet – JUST-DUB-IT (arXiv:2601.22143) – beskriver en to-komponents pipeline: en syntetisk datapipeline med «language-switching og counterfactual inpainting», pluss in-context LoRA-trening som utnytter audio-visuelle priors fra base-modellen.

Hva kan du faktisk bruke LipDub til?

De mest åpenbare bruksområdene er dubbing av video til andre språk, korrigering av feil replikker i opptak, og generering av AI-karakterer som snakker ny dialog uten å filme på nytt. Prosjektdemoen viser dubbing til fransk, russisk, spansk og tysk med bevart stemmekvalitet og lipsync.

For innholdsskapere er muligheten til å korrigere en dårlig take uten ny filming interessant. Filmet en instruksjonsvideo og oppdaget en feil? Med LipDub kan du teknisk sett regenerere den setningen med korrekt informasjon, og beholde resten av klippet uendret.

Flerspråklig dubbing er det åpenbart store markedsmessige bruksområdet. I stedet for å leie inn dubbing-skuespillere og matche leppebevegelser manuelt – en prosess som kan koste titusener av kroner per episode – kan en enkelt modell gjøre det automatisk. Betabegrensningene (8 sekunder, én taler) betyr at LipDub ikke er klar for langfilmer enda, men for korte klipp, reklame og YouTube-snuttar er det langt mer håndterbart.

Infografikk som sammenligner tradisjonell to-stegs lipsync-flyt mot LipDubs enkelt-pasnings-tilnærming
Til venstre: lyd og bilde generert separat og limt sammen. Til høyre: LipDubs tilnærming der lyd og leppebevegelse genereres simultant.

Hvordan installerer og bruker du LipDub?

LipDub er tilgjengelig via Lightricks’ LTX-2-repository på GitHub. Modellvektene lastes ned fra Hugging Face. Selve LipDub-pipelinen installeres som en Python-pakke:

pip install -e packages/ltx-pipelines

Du trenger deretter å laste ned IC-LoRA-vektene (ltx-2.3-22b-ic-lora-lipdub-0.9.safetensors) og plassere dem i modell-mappen. Kjøring skjer via kommandolinje:

python -m ltx_pipelines.lipdub --reference-video original.mp4 --audio-path ny_dialog.wav --lora path/to/lipdub_lora.safetensors

Et viktig teknisk poeng: pipelinen krever den distilled versjonen av LTX-2.3, ikke fullmodellen. Distilled-modellen er optimalisert for færre diffusjonssteg, noe som gir raskere inferens med lavere minnebruk. Oppløsningen på output-klippet hentes automatisk fra kildeklippet, og antall frames justeres til nærmeste 8k+1-format.

For de som foretrekker et visuelt grensesnitt finnes det også en ComfyUI-workflow i Lightricks’ offisielle ComfyUI-LTXVideo-repository. Det er litt enklere å komme i gang med for de som ikke er komfortable med kommandolinje-kjøring. Har du allerede satt opp AI-videogenerering lokalt, er mye av infrastrukturen allerede på plass.

Er LipDub bedre enn LatentSync og Wav2Lip?

Det er det interessante spørsmålet. De fleste som har jobbet med lipsync på LTX-video tidligere har brukt en to-stegs-flyt: generer videoen med LTX, kjør så LatentSync eller et lignende verktøy for å legge på lippesync i etterkant. Det fungerer, men resultatet er sjelden helt overbevisende fordi de to lagene ikke er integrert.

LipDubs enkelt-pasnings-tilnærming har et klart teoretisk fortrinn: når lyd og bilde genereres simultant i én diffusjonsmodell, vil synkroniseringen mellom dem være bedre. Det er samme prinsipp som gjør at LTX-2 – som genererer audio og video i én pasning – ofte høres mer naturlig ut enn verktøy som legger til lyd i etterkant.

I praksis er dette et beta-verktøy, og begrensningene er reelle. 8 sekunder er kort. En enkelt taler er begrensende. Og de GPU-kravene for 22B-parametermodellen er ikke trivielle. Men det er en solid teknisk start, og Lightricks har vist med LTX-serien at de forbedrer verktøyene sine raskt.

Teknisk diagram over LipDub IC-LoRA pipeline med kildevideo, ny lyd og regenerert leppebevegelse gjennom LTX-2.3 diffusjonsmodellen
IC-LoRA-adapteren kobles til LTX-2.3 og styrer diffusjonsprosessen til å regenerere leppebevegelser synkronisert med nytt lydspor.

Hva sier SIGGRAPH-forskningen bak LipDub?

JUST-DUB-IT-paperet løser et spesifikt problem som har plaget dubbing-verktøy lenge: det er ekstremt vanskelig å trene en modell til å dubbe video fordi det ikke finnes nok trente sett med originale videoer og dubbede versjoner av dem.

Løsningen er elegant. Forskerne bygget en syntetisk datapipeline som genererer sine egne treningspar via «language-switching og counterfactual inpainting». Det betyr at modellen lærer av data den selv har laget – en tilnærming som ligner på hvordan syntetiske data brukes i andre avanserte AI-modeller i dag.

In-context LoRA-treningen er den andre nøkkelkomponenten. I stedet for å trene en ny modell fra bunnen, utnytter LipDub de audio-visuelle priorene som allerede er innebygd i LTX-2.3 fra dens originale trening. IC-LoRA-adapteren «styrer» disse priorene mot lipsync-oppgaven uten å endre basismodellen. Det er effektivt og gjør distribusjonen langt enklere – du trenger bare LoRA-vektene, ikke en helt ny modell.

Det er verdt å merke seg at dette er forskning presentert på SIGGRAPH 2026 – en av de mest anerkjente konferansene for datagrafikk og interaktive teknikker. Det gir troverdighet til den tekniske tilnærmingen, selv om beta-statusen signaliserer at det fremdeles er forbedringer på vei.

Hva kommer neste versjon til å fikse?

Betabegrensningene er tydelige signaler om hva som er i arbeid. 8 sekunder er sannsynligvis en minnerestriksjon – 22B-modellen er ikke lett, og å generere lange klipp krever enten mer GPU-minne eller smartere chunking av videoen. Flertaler-støtte er et mer komplekst problem som krever at modellen identifiserer hvem som snakker til enhver tid, noe som er et eget problem i seg selv.

Lightricks har vist med LTX-Video-serien – LTX-2 er en av de sterkeste open source video-modellene som finnes – at de tar iterasjon på alvor. LTX Video 2.3 kom med kraftig ytelseshopp over 2.0. Det er rimelig å forvente at LipDub følger samme mønster.

For nå er dette et solid beta-verktøy for eksperimentering. Korte klipp med én taler – det er det meste av YouTube-innhold, de fleste reklamesnutter og mesteparten av instruksjonsvideoer. Innenfor den rammen er LipDub allerede brukbart for seriøse eksperimenter.

Hva tenker du – er lipsync i én pasning noe du vil prøve? Har du brukt LatentSync eller Wav2Lip tidligere, og er du nysgjerrig på om enkelt-pasnings-tilnærmingen faktisk gir bedre resultater? Si gjerne noe i kommentarfeltet.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

Meld deg på nyhetsbrevet

Få oppdateringer om AI nyhetene rett i inboxen!

Du liker kanskje denne også
Jan Sverre arbeider med Suno AI musikk-generering på datamaskinen, kreativt workspace med hodetelefoner

Suno AI – 150 Låter Testet: Hva Funker og Hva Er Bortkastet Tid

Jeg testet 150 Suno-låter og fant tydelige mønstre. Her er hva som faktisk gir kvalitet, og hva som bare kaster bort tid.
Jan Sverre med headphones og lydmikser i boardroom-møte med forvirrede executives

Suno AI Copyright 2026 – Opphavsrett og Rettigheter for AI-Musikk

Kan du tjene penger på Suno-musikk? Her er en praktisk gjennomgang av rettigheter, risiko og hva du bør avklare før publisering.
Jan Sverre riding a dinosaur in safari outfit, photorealistic AI-generated image demonstrating Nano Banana Pro capabilities

Jeg testet Nano Banana Pro: AI som faktisk skriver norsk i bilder

Endelig! En AI som kan generere norsk tekst i bilder med 94% nøyaktighet. Jeg testet Nano Banana Pro grundig – her er resultatene.
Jan Sverre styrer et digitalt kontrollpanel omgitt av Claude AI-symboler og glødende lysstriper i et mørkt rom

Claude AI – pris, funksjoner og norsk guide (2026)

Alt om Claude AI i 2026 – priser i norske kroner, Claude Pro vs Max, Claude Code, og ærlig sammenligning med ChatGPT. Komplett norsk guide fra en som bruker Claude daglig.