Seedance 2 snakker svensk på 16:9 – og norsk på 9:16. Her er hva som skjer

Innhold Vis

Seedance 2 er blant de beste AI-videomodellene for lipsync akkurat nå – men bare hvis du bruker riktig aspect ratio. Kjører du 16:9, får du svensk. Kjører du 9:16, får du norsk. Samme bilde, samme innspilte replikk, samme pipeline – eneste forskjellen er om videoen er bredformat eller vertikalt. Det er et av de rarere funnene jeg har gjort i det siste.

Jeg oppdaget dette mens jeg bygde en talking-head-pipeline med Seedance 2 som motor. Alt fungerte fint på vertikale klipp, men da jeg byttet til 16:9 for å teste bredformat – poff – hørtes stemmen plutselig ut som en fyr fra Gøteborg. Ikke akkurat planen.

Siden det er lett å tro at man har gjort noe galt i en kompleks pipeline, isolerte jeg variablene og testet kontrollert. Det tok litt tid, men resultatet er klart og reproduserbart. Under går jeg gjennom hva jeg fant, hva Whisper-transkripsjonen viser, og – viktigst – hva du må gjøre for å få norsk lipsync til å faktisk fungere.

Illustrasjon av 9:16 (norsk, grønn) og 16:9 (svensk, rød) format i Seedance 2 lipsync — 9:16 gir norsk, 16:9 gir svensk – Whisper-verifisert med 0,99 confidence på begge.

Hva skjer med lipsync i Seedance 2?

Seedance 2 fra ByteDance (bytedance/seedance-2 via fal.ai) støtter lipsync med innspilt lyd – du gir modellen et stillebilde og en lydfil, og den animerer munnen slik at den tilsvarer det du sier. Det fungerer overraskende godt, og jeg har brukt det til både musikkvideoer og talking head-klipp.

Men 5. juni oppdaget jeg noe: på 16:9-format (1280×720) snakker den genererte personen med svensk aksent og svensk vokabular. Den intenderte norske replikken blir transformert til noe som høres ut som middels god svensk – komplett med «jag», «hallå» og ombygde ord. På 9:16 (720×1280) er det norsk, akkurat som inputen.

For å verifisere dette skikkelig kjørte jeg begge klippene gjennom Whisper ASR 8. juni. Den intenderte replikken var: «Hallo, hallo! Jeg leker litt med Seedance 2 nå, og det er ganske sykt å se hvor langt AI-video har kommet nå i 2026.»

Whisper-resultatet for 9:16-klippet: «Hallo, hallo! Jeg leker litt med [Seedance] 2 nå, og det er ganske sykt å se hvor langt AI-video har kommet nå i 2026.» – detektert som norsk. For 16:9-klippet: «Hallå, hallå! Jag är gläckligt med sidans tvåna och det är ganska syst att se hur länge AI-video har kommit nu i 2026.» – detektert som svensk med 0,99 confidence. Legg merke til «sidans tvåna» – det er Whispers forsøk på å transkribere det modellen sier der «Seedance 2» var i originalen.

Tre separate 16:9-klipp ble svensk. To 9:16-klipp ble norsk. Det er ikke tilfeldig støy.

Hvorfor skjer dette? En hypotese

Jeg vet ikke sikkert hva som forårsaker dette, og det ville være dumt å presentere en gjetning som fakta. Men den mest sannsynlige forklaringen er treningsdata-bias.

Tenk over hva slags videoinnhold som dominerer på nett i ulike formater. Bredformat (16:9) talking-head-innhold – YouTube, nyheter, podcaster – er massivt skjevt mot engelsk. Skandinavisk innhold er naturligvis en liten andel av treningsdataen, og innenfor den andelen er det mye engelsk-påvirket materiale. Svensk er større enn norsk og ligner nok til at modellen kan «gli» mot det under generering.

Vertikalt format (9:16) er kortformat: TikTok, Instagram Reels, YouTube Shorts. Her er det relativt sett mer nordisk og blandet innhold. Kanskje er norsk bedre representert i den kategorien, og modellen bruker formatinformasjonen som et implisitt signal om hva slags innhold og hva slags språk som er forventet.

Det er en hypotese, ikke en konklusjon. ByteDance har ikke kommentert dette, og jeg har ikke tilgang til treningsdataen. Men det er den forklaringen som gir mest mening basert på det vi ser. Og det er en ganske fascinerende tanke: at et aspektforhold kan påvirke hvilket språk modellen «velger».

Slik får du norsk lipsync til å fungere i Seedance 2

Basert på testingen er det fire ting som må stemme for at lipsync skal fungere korrekt:

1. Bruk 9:16 for norsk innhold. Det er den viktigste lærdommen herfra. 16:9 gir svensk – ingen vei utenom, i hvert fall ikke med den modellversjonen som er tilgjengelig nå. Skal du lage talking head-klipp på norsk, er vertikalt format den pålitelige veien.

2. Sett generate_audio = true. Ikke false. Med generate_audio = false animerer modellen bare munnen visuelt uten å ta hensyn til innspilt lyd skikkelig – resultatet er en munn som flakser tilfeldig. Med true bruker modellen lydfilen til å styre munnsettene.

3. Skriv eksakt replikk i prompten. Modellen trenger å vite hva som sies i akkurat det segmentet. Ikke en generell beskrivelse, men den faktiske teksten som er spilt inn. Dette er særlig viktig for at timingen skal treffe.

4. Match lyd-lengde og output-lengde. Seedance 2 støtter klipp på 5, 10 og 15 sekunder. Lyd-slicea du sender inn bør matche nøyaktig den outputlengden du velger. Kortere lyd enn outputlengde vil gjøre at modellen fyller ut med noe den finner på selv.

Fasit på at det faktisk kjørte: råklippet som kommer tilbake har et lydspor. Stumt klipp betyr at lipsync-passet ikke ble aktivert riktig. Vil du se hele videopipeline-oppsettet i kontekst, har jeg skrevet om hvordan jeg satte sammen en full AI-musikkvideo med Seedance som en av komponentene.

Digital visualisering av AI lipsync med lydgenerering og taleanimasjon — Seedance 2 animerer munnen basert på innspilt lyd – men bare korrekt på 9:16.

Gjelder dette bare norsk?

Nei, og her er det viktigste forbeholdet: dette er ikke en feil med bredformat i seg selv. Jeg har laget en hel musikkvideo (Steel and Starlight) i 16:9 med Seedance 2 og lipsync – med engelske lydklipp – og der var det null problemer. Engelsk sitter perfekt uansett format. Det er norsk spesifikt som kollapser mot svensk på 16:9. Om dansk og finsk gjør det samme vet jeg ikke – jeg har testet norsk og engelsk, ikke de andre. Hypotesen min er at små nordiske språk «glir» mot et større nærspråk når formatet er det treningsdataen forbinder med engelsk- og svenskdominert innhold. Tester du dansk eller finsk: si gjerne fra i kommentarfeltet.

Hva jeg kan si med sikkerhet er at norsk lipsync på 16:9 gir konsekvent svensk output i Seedance 2, og at 9:16 løser det. Hvis noen tester dansk eller finsk og finner noe annerledes – si gjerne fra i kommentarfeltet. Det hadde vært interessant å se mønsteret bredere.

For norsk-basert lipsync-produksjon er konklusjonen uansett enkel: hold deg til 9:16. Det fungerer, og det er formatet som passer kortvideo-distribusjon godt uansett. Vil du ha en fullstendig oversikt over hva som trengs for å lage AI-video, har jeg en guide som dekker hele arbeidsflyten fra start til publisering. Og til de som vil grave dypere i lipsync-alternativer: LipDub bygget på LTX 2.3 er en open source-tilnærming med en annerledes to-stegs arbeidsflyt – verdt å kjenne til hvis du vil ha full lokal kontroll. En bredere sammenligning av videomodellene finner du i gjennomgangen av Wan 2.6, Seedance og Kling.

På Engelsk er Seedance 2 mye bedre, MEN. Den har sine mangler der også. man gir input lyd og man får tilbake med … Tilsvarende ly Men, den er endret så får musikkvideo produksjon med lipsync er den også helt ubrukelig da den endrer timing og kan produsere artifakter i lyden. men det er ikke dårlig det man får på Engelsk, men brukbart til musikkvideo produksjon er det ikke.

Ofte stilte spørsmål

Fungerer Seedance 2 lipsync på andre nordiske språk enn norsk?

Engelsk fungerer perfekt på både 16:9 og 9:16 – jeg har laget en hel musikkvideo sånn. Det er norsk som kollapser mot svensk på 16:9. Dansk og finsk har jeg ikke testet, så det vet jeg ikke sikkert. Uansett: 9:16 er den trygge veien for norsk lipsync.

Kan jeg bruke Seedance 2 lipsync gratis?

Seedance 2 er tilgjengelig via fal.ai, som krever en konto og betaler per generering. Det finnes ingen gratis tier for Seedance 2 lipsync per juni 2026. Klipp koster noen kroner per generering avhengig av lengde og format.

Hva er forskjellen på Seedance 2 og andre lipsync-verktøy som LatentSync?

Seedance 2 er en fullintegrert skymodell som kombinerer bildeanimasjon og lipsync i ett pass – du gir bilde og lyd, får video tilbake. LatentSync og LipDub-varianter er open source-modeller du kjører lokalt, gjerne i to trinn (video først, lipsync etterpå). Seedance 2 er enklere å komme i gang med, mens lokale modeller gir mer kontroll og ingen løpende kostnader.

Må jeg ha et spesifikt format på lydfilen for at lipsync skal fungere?

Lydfilen bør matche nøyaktig outputlengden du velger (5, 10 eller 15 sekunder). WAV og MP3 fungerer begge. Viktigst er at du setter generate_audio = true i API-kallet – uten det animeres munnen uten referanse til det du faktisk sier.