Innhold Vis
Du trenger ikke kunne synge, filme eller redigere video for å lage en musikkvideo. Jeg har vært syk i seks måneder – hodepine, magesmerter, leddsmerter. Helsevesenet gir meg smertestillende nok til at jeg ikke vet nøyaktig hvor vondt det er, men ikke nok til å finne ut hva som faktisk er galt. En dag bestemte jeg meg for å lage noe i stedet for å sitte og vente.
Resultatet ble «Number On A List» – en gritty blues-rock-låt på engelsk om nettopp det: smerte, ventetider og et helsevesen som ser rett gjennom deg. Og hele musikkvideoen ble laget ved å prate med Claude Code. Ingen videoredigering. Ingen kamera. Ingen sangstudio.
Her er hele historien – verktøyene, pipeline-en, hva som gikk greit og hva som var et spektakulært rot underveis.
Hva er egentlig «Number On A List»?
Låta er rett og slett skrevet om å være syk i seks måneder uten svar. Teksten er ærlig – kanskje litt for ærlig. «Wake up to a hammer in the back of my skull / Acid in my stomach, joints that scream and stall / Six months in the dark and the doctors just shrug / Hand me little pills to keep me numb and dumb.» Det var ikke vanskelig å skrive den.
Musikken er gritty blues-rock. Litt dyster, litt sint, litt trist. Ikke et sjangerforsøk – det var bare lyden som passet til teksten. Og siden jeg uansett ikke kan synge, lot jeg Suno ta seg av det.
Det morsomme – hvis man kan kalle det det – er at prosjektet ble like mye et teknisk eksperiment som et kreativt. Etter noen timer satt jeg og fikset ffmpeg-skript i stedet for å tenke på smerter. Det hjelper.

Verktøyene – hva ble brukt til hva
Her er hele tech-stacken, i den rekkefølgen det egentlig henger sammen:
- Suno V5.5 – låt og vokal. Jeg skriver teksten og stiltips, Suno synger. Raskere og bedre enn jeg noen gang ville klart selv. Har skrevet om Suno-erfaringen min tidligere – etter 150 låter vet jeg hva som funker.
- OpenAI Whisper (large-v3-turbo) – transkriberte låta med tidsstempler. Hvert eneste ord fikk et start- og slutt-tidspunkt. Det er grunnlaget for at video og tekst kan synkes linje for linje.
- Nano Banana 2 – bilder. Thumbnail, «character sheet» (mer om det straks) og en del av stilsettingen. Nano Banana 2 er fortsatt den raskeste bildemodellen jeg bruker.
- Google Gemini Omni (via KIE) – mesteparten av video-b-roll-en. Rask, billig og levende. Den store overraskelsen i dette prosjektet.
- Kling AI Avatar – lip-sync på synge-klippene. Der munnen faktisk skal matche vokalen.
- ffmpeg – limte alt sammen. Klipp etter klipp, synket til Whisper-tidsstemplene, hele låta som lydspor.
Alt dette ble orkestrert fra én terminal – ved å prate med Claude Code.
Hvordan Claude Code orkestrerte det hele
Det som er poenget med dette prosjektet – og grunnen til at jeg skriver om det her – er at jeg ikke redigerte video manuelt. Ikke ett klipp. Claude Code fikk oppgaven, og den jobbet gjennom API-kall og skript for å sy det hele sammen.
Flyten var omtrent slik: Whisper analyserte lydfilen og returnerte en JSON med tidsstempler for hvert ord og hver linje. Deretter ble det generert video-prompts for hvert segment – noen sekunder med musikkvideo-bilder som passer til akkurat den tekstlinjen. Gemini Omni genererte b-roll, Kling tok lip-sync-sekvensene, og ffmpeg klippet det hele sammen til én sammenhengende video med lydspor. Hvis et klipp var for kort, genererte Claude Code et nytt. Hvis et segment manglet, ble det notert og fikset.
Det ligner mye på det jeg gjorde med tippoldefars dikt tidligere, men her er det originalt materiale og en mer kompleks pipeline med flere modeller. Og denne gangen var det vanskeligere – fordi innholdet er mørkt.

Hva som gikk galt (og det meste gikk galt)
La meg være ærlig: denne videoen ble ikke til på første forsøk. Ikke på femte heller.
Innholdsfilteret var et helvete. Tekstlinjer som «numb and dumb», «hand me pills», «drowned in silence» – disse utløste gjentatte ganger PUBLIC_ERROR_UNSAFE_GENERATION fra videomodellene. Ikke fordi de er farlige, men fordi algoritmene er satt opp for å unngå alt som kan minne om rus, selvskading eller depresjon. Resultatet var at jeg måtte omformulere prompts til mer abstrakte, symbolske beskrivelser for å komme gjennom filteret – noe som tok lang tid og mange forsøk.
Fremmed mann dukket opp. Flere ganger. Et par sekvenser endte opp med en helt annen person enn meg fordi prompten ikke låste ansiktet hardt nok. Det er her «character sheet» kom inn – et referansebilde med fast antrekk og look som ble brukt konsekvent gjennom hele produksjonen. Uten det hadde Jan Sverre plutselig grå skjegg og en annen nese midt i videoen.
Kling er litt sær. Det er den beste lip-sync-modellen jeg har tilgang til akkurat nå, og det funker – munnen matcher vokalen rimelig bra. Men Kling gir av og til et litt tomt blikk, av og til noe nær svarte øyne, og generelt mangler den litt av den livligheten Gemini Omni har i b-roll-en. Det er ikke et dealbreaker, men det synes. Jeg lar det stå – det er den beste tilgjengelige løsningen per i dag.
Seedance 2 funket ikke for lip-sync. Jeg testet det. Modellen har en «reference audio»-funksjon som høres lovende ut, men i praksis er det mer løs guiding enn ekte lip-sync. Munnen var konsekvent off. Kling ble valget. For en bredere sammenligning av AI-videomodellene som var tilgjengelige i desember, se testen av Wan 2.6, Seedance og Kling 2.6.
Gemini Omni var den store overraskelsen. Rask, billig og levende b-roll. Langt bedre enn forventet til denne bruken. Det meste av videoen er Omni, og det er der det ser best ut.
Hva kostet det?
Omtrent 200-400 kroner i API-credits totalt – og det er inkludert alt det som ble generert og forkastet underveis. Mange klipp som ikke ble brukt, mange forsøk på prompt-reformulering, en del feil-genereringer. Prisen for den ferdige videoen alene hadde vært lavere, men eksperimentering koster litt ekstra.
En hel musikkvideo for prisen av en pizza. Det er der vi er i 2026. Hvis du er nysgjerrig på hva AI-musikk koster mer generelt, har jeg en komplett guide til å lage musikk med AI som tar for seg de vanligste verktøyene og prismodellene.
Det som tok tid var ikke pengene – det var iterasjonene. Prompt-reformulering etter filter-avvisninger, karakter-sheet-jobbing, synkroniseringsjustering. Det er der timene forsvant. Men det var også der det var morsomt. Noe å gruble på i stedet for smerter.
Kan du gjøre det samme?
Ja, med forbehold. Du trenger tilgang til disse API-ene (Suno, Gemini Omni eller tilsvarende videomodell, Kling for lip-sync, Whisper), og du trenger Claude Code eller tilsvarende kodeverktøy til å lime det hele sammen. Selve kodingen skjer via samtale – du beskriver hva du vil ha, Claude Code skriver skriptene.
Det som er annerledes fra «bare bruk Suno og last opp» er at pipeline-en her synker video til tekst linje for linje. Det er det som gjør det til en ordentlig musikkvideo og ikke bare et lydbilde med stock-footage. Whisper-tidsstemplene er nøkkelen – uten dem har du ingen presisjon i klippingen.
Er du interessert i musikk-siden av dette – altså selve låtlagingen uten videodelen – finnes det mye mer å lese om Suno her på jansverre.net. Det er et annet prosjekt enn å orkestrere video, men begge er tilgjengelige for folk flest i 2026 på et helt annet nivå enn for bare ett år siden.