Jan Sverre og Gustav Johan Carlén sitter ved siden av hverandre og skriver - tidssprang mellom moderne AI-produksjon og 1890-talls diktskriving

I 2025 ble en bunke håndskrevne dikt funnet blant gamle familiepapirer. Forfatteren? Gustav Johan Carlén – en norsk tater som levde rundt forrige århundreskifte.

Gustav ble født i dyp fattigdom, sendt ut som gjetergutt ved åtte års alder, mishandlet av arbeidsgivere, og tilbrakte deler av livet som omreisende «fant» – et folk som ble møtt med stengte dører og forakt overalt. «Velkommen ingen sted man er, protestere ingen tør», skrev han i ett av diktene.

Men Gustav var mer enn en overlever. Han lærte seg å lese og skrive – uvanlig for reisende på den tiden – og ble arbeider ved Hunsfos papirfabrikk ved Vennesla. Han dokumenterte alt i dikt: barnearbeid, fabrikklivet, naturen, troen, kjærligheten til moren. Et unikt historisk vitnesbyrd fra Norges marginaliserte.

Jeg bestemte meg for å gi disse diktene nytt liv. Ikke som tekst i en skuff, men som komplette musikkvideoer med sang, visuals og teksting. Alt laget med AI.

Det tok tid å bygge workflowen – men nå er den API-drevet

La meg være ærlig: Første gangen jeg prøvde dette, tok det en hel dag. Og resultatet var middelmådig.

Suno AI ga meg feil stemning. Bildene var inkonsistente. Videoene hakket og hoppet. Tekstingen var ute av synk. Jeg måtte iterere, eksperimentere, finjustere prompts – gang på gang.

Nå kjører alt via API-er. Og det er her magien ligger.

Hvorfor API-er?

  • Du betaler for det du bruker – ingen abonnementer, ingen ubrukte kreditter som utløper
  • Konsistens fra prompts – samme parametere gir samme resultat hver gang
  • Automatisering – scriptet gjør jobben, ikke fingrene dine
  • Skalerbarhet – kjør 10 videoer mens du sover

Hele workflowen – fra diktnavn til ferdig video – kjøres automatisk. Ingen klikking, ingen copy-paste, ingen manuell opplasting.

Nå gir jeg bare diktnavn og venter 30 minutter

Jeg skriver:

"Lag video av diktet 'Produksjon av Papir'"

En halvtime senere er alt klart:

  • Diktet renset for gammel ortografi
  • Suno-sang generert med riktig stemning og konsistent stemme
  • MP3 lastet ned, lengde analysert, segmenter beregnet
  • Whisper-transkribering kjørt for ord-timing
  • Scene-plan med alle 20 prompts ferdig
  • Alle 20 frames generert med Flux2 Pro
  • Alle 20 videoklipp generert med Kling O1 via fal API
  • Videoer concatenert med ffmpeg
  • Lyrics brent inn som karaoke-teksting
  • Ferdig musikkvideo klar for opplasting

La meg vise deg hele workflowen, steg for steg, med alle promptene.

Steg 1 – Rens diktet

Gustavs dikt er skrevet på 1890-talls norsk-svensk blandingsspråk. «Ö» i stedet for «ø», «aa» i stedet for «å», danske og svenske ord. Typisk for romani-folk som beveget seg mellom landene.

Hva jeg erstatter:

  • öø
  • aaå (kun lang å-lyd)
  • mandmann
  • ejei
  • förfor

Eksempel fra «Produksjon av Papir»:

Original:
"Lösten hugs om vintertiden, da man synes den er best
til et vann der den maa stötes och vid passlig vannstand flötes"

Renset:
"Løsten hugs om vintertiden, da man synes den er best
til et vann der den må støtes og vid passlig vannstand fløtes"

Jeg beholder gammeldags ord som «hugs», «løsten», «vid» – det gir autentisitet. Men stavingen må være norsk nok til at Suno AI forstår og synger det riktig.

Steg 2 – Generer musikk med Suno AI

Dette tok mange forsøk å få riktig. Feil stil gir feil stemning. For rask tempo ødelegger den melankolske følelsen i Gustavs ord.

Mine Suno-parametere (etter mye testing):

personaId: "92442e58-2442-46eb-8c66-bc64b4d7c02d"
vocalGender: "m"
model: "V5"
customMode: true
instrumental: false

Style:
"melancholic acoustic guitar, traditional Nordic folk ballad,
solo male vocals, slow tempo 70 BPM, minor key, intimate and raw,
1800s Norwegian folk poetry, sparse instrumentation"

Prompt: [Hele det rensede diktet]
Title: [Diktets navn]

Persona ID lagrer stil-innstillingene mine – promptet, tempoet, instrumenteringen. Det sikrer konsistens på tvers av sanger. vocalGender: «m» er det som gir mannsstemme. Stilen beskriver nøyaktig hva jeg vil ha: langsom, melankolsk, rå, intim. 70 BPM gir riktig tempo for tekstene.

Suno genererer alltid to versjoner per request. AI laster ned begge, lytter gjennom, velger den beste. «Produksjon av Papir» ble 3 minutter og 13 sekunder.

Kostnad via sunoapi.org: 12 credits per generering (2 sanger). 10.000 credits = $50 (utløper aldri). Det blir ca $0.06 per sangpar.

Steg 3-4 – Analyser lengde og transkriber med Whisper

Kling O1 genererer videoer i 10-sekunders segmenter. Jeg må vite nøyaktig hvor mange segmenter jeg trenger.

Beregn segmenter:

ffprobe -v quiet -show_entries format=duration -of csv=p=0 produksjon_av_papir_v2.mp3

Output: 193 sekunder

Antall segmenter = ceil(193 / 10) = 20 segmenter

Deretter kjører jeg Whisper for ord-timing. Dette er kritisk for lyrics-synkronisering senere.

whisper produksjon_av_papir_v2.mp3 --language Norwegian --model small \
  --output_format json --output_dir . --word_timestamps True

Whisper kjører lokalt (gratis!), og gir JSON med nøyaktige timestamps for hver linje. Denne filen konverterer jeg til SRT for karaoke-teksting.

Steg 5 – Scene-planlegging (hjerte av workflowen)

Dette tok lengst tid å perfeksjonere. For hvert 10-sekunders segment må jeg planlegge:

  • Hvilken tekst som synges (fra Whisper-tidslinje)
  • Gustavs alder – 40 år (arbeider) eller 60 år (eldre, reflekterende)
  • Location – vi følger papirproduksjonsprosessen: vinterlandskap → dam → sliperi → papirsal
  • Shot type – wide for etablering, medium for arbeid, close-up for detaljer
  • Positur og ansiktsuttrykk
  • Flux2 Pro prompt for å generere frame
  • Kling O1 prompt for bevegelse

Eksempel fra «Produksjon av Papir» – Segment 01:

## SEGMENT 01 (0:00-0:10) - Intro
**Tekst:** Instrumental / "Produksjon av papir ved det gamle sliperiet på Hunsfos"
**Alder:** 40
**Location:** Vinterlandskap

### FRAME
- **Shot:** Wide establishing
- **Positur:** Standing beside horse-drawn sled loaded with logs
- **Uttrykk:** Proud, determined
- **Setting:** Snowy forest road, morning light, steam from horse's breath

### KLING O1 PROMPT
Man stands beside horse in snowy forest. Horse breathes steam in cold air.
Man pats horse's neck. Snow falls gently. Cinematic winter atmosphere.

Diktet handler om hele papirproduksjonsprosessen – fra tømmeret hentes i skogen, til det flyter i dammen, gjennom sliperiet, til ferdig papir ruller av maskinene. Hvert segment følger denne narrative buen.

Steg 6 – Generer frames med Flux2 Pro

Nå lager jeg ETT bilde per segment. Kling O1 Elements bruker dette bildet som referanse og animerer det.

Frame prompt-malen (finpusset over mange iterasjoner):

Cinematic [shot type] of Norwegian Roma traveler Gustav, [alder] years old,
[positur og uttrykk]. [Setting]. 1890s aesthetic.
Shot on cinema camera, 35mm lens at f/2.8. [Stemning] mood.
Warm sepia color grading, muted earth tones.
Full color photograph, rich saturated colors with vintage film look.
9:16 vertical aspect ratio. NOT black and white

«NOT black and white» er viktig – uten det lager Flux ofte svart-hvitt bilder for «1890s aesthetic».

Jeg bruker Flux2 Pro image-to-image med karakterreferanse. Dette sikrer at Gustav ser konsistent ut i alle 20 frames – samme ansikt, samme klesstil, bare forskjellig positur og setting.

Kostnad via kie.ai: $0.025 per bilde × 20 = $0.50

Steg 7 – Kling O1 video-generering via fal API

Kling O1 kjøres via fal API – helt automatisk. Scriptet sender bilde + prompt, får tilbake 10 sekunders video.

Kling O1 prompt-stil (viktig!):

  • Korte, klare setninger
  • Fokus på ÉN hovedbevegelse
  • Beskriv retning og tempo (sakte, rolig, kraftig)
  • Inkluder stemning/atmosfære

Eksempler fra «Produksjon av Papir»:

Segment 01 (rolig introduksjon):

Man stands beside horse in snowy forest. Horse breathes steam in cold air.
Man pats horse's neck. Snow falls gently. Cinematic winter atmosphere.

Segment 07 (sagbruk-arbeid):

Man operates large industrial saw. Log moves through blade. Sawdust flies in air.
Focused concentration on work. Rhythmic sawing motion. Factory interior.

Segment 20 (stolt avslutning):

Man stands proudly beside large roll of finished paper. Arms crossed with satisfaction.
Factory machinery behind. Slow nod of accomplishment. Industrial pride.

API-parametere:

  • Mode: Elements (bilde som referanse)
  • Duration: 10 seconds
  • Aspect Ratio: 9:16

For 20 segmenter à 10 sekunder = 200 sekunder video. Via fal API koster Kling O1 $0.084 per sekund, altså ca $16.80 for hele videoen. Alle videoene lastes ned automatisk som segment_01.mp4, segment_02.mp4, etc.

Steg 8 – Sett sammen med ffmpeg

Nå har jeg 20 separate videoer uten lyd. Tid for å sette dem sammen.

Concat videoene:

ffmpeg -f concat -safe 0 -i filelist.txt -c copy video_uten_lyd.mp4

Legg til audio:

ffmpeg -i video_uten_lyd.mp4 -i produksjon_av_papir_v2.mp3 \
  -c:v copy -c:a aac -shortest \
  produksjon_av_papir_med_lyd.mp4

Brenn inn lyrics (karaoke-stil):

ffmpeg -y -i produksjon_av_papir_med_lyd.mp4 \
  -vf "subtitles=lyrics.srt:force_style='FontName=DejaVu Serif,Bold=1,FontSize=20,PrimaryColour=&HFFFFFF,OutlineColour=&H000000,Outline=1.5,Shadow=1,Alignment=2,MarginV=25'" \
  -c:a copy produksjon_av_papir_FINAL.mp4

Ferdig. 3 minutters musikkvideo med AI-generert musikk, AI-genererte frames, AI-animerte videoer, og synkronisert karaoke-teksting.

Automatiseringen – API-er er nøkkelen

Alt dette – fra diktnavn til ferdig musikkvideo – kjøres automatisk via API-kall.

Jeg har bygget en workflow som orkestrerer flere API-er:

  1. Tekstprosessering: Leser og renser diktet automatisk
  2. Suno API: Genererer sang med persona ID, stil-parametere, alt programmatisk
  3. ffprobe: Analyserer MP3, beregner segmenter
  4. Whisper: Lokal transkribering med ord-timestamps
  5. Scene-planlegging: Genererer alle segment-beskrivelser og prompts
  6. kie.ai API (Flux2 Pro): Genererer alle 20 frames via API – ingen manuell opplasting
  7. SRT-konvertering: Whisper JSON til lyrics.srt
  8. Kling O1 via fal API: Genererer alle 20 videoklipp automatisk
  9. ffmpeg: Concatenerer, legger til audio, brenner inn lyrics
  10. Output: Ferdig musikkvideo

Jeg gir diktnavn, venter 30 minutter, og får alt servert på sølvfat.

Poenget: Hadde jeg brukt web-grensesnitt for alt dette, ville det tatt timer. Med API-er tar det minutter.

Hva koster det?

For en 3-minutters video som «Produksjon av Papir» (20 segmenter):

ElementKostnad
Suno sang (via sunoapi.org)~$0.06
Flux2 Pro frames (20 stk via kie.ai)~$0.50
Kling O1 (200 sek via fal API)~$16.80
WhisperGratis (lokal)
ffmpegGratis

Total: Ca $17-18 for en komplett 3-minutters musikkvideo.

Kling O1 via fal API er den største kostnaden. Men du får profesjonell kvalitet – og alt kan automatiseres. Og det fungerer likt med Veo 3.1 Kling 2.6 Wan 2.6 alt konfigureres til API. Jeg bruker KIE sin api for Flux2 pro fordi det er veldig billig med flux og nanobanana pro på kie.

Mitt råd: Dropp leverandørene, sats på API-tilgang

Hvis du vil bygge noe som faktisk skalerer og automatiserer, må du tenke API-først.

Web-grensesnitt er fint for å lære verktøyene. Men de er ikke bygget for automatisering. Du klikker, venter, laster ned, laster opp, klikker igjen. Det tar tid, og du gjør samme jobb om og om igjen.

Med API-tilgang kan du:

  • Kjøre alt programmatisk – ingen manuell interaksjon
  • Bygge workflows som orkestrerer flere tjenester
  • Skalere – kjør 10 videoer mens du sover
  • Iterere raskt – endre en parameter, kjør alt på nytt

Ja, det krever litt mer oppsett i starten. Du må skaffe API-nøkler, lære deg kallene, bygge infrastrukturen. Men det lønner seg. Første video tok meg en dag. Nå tar det 30 minutter – fordi alt er API-drevet.

Kulturarv møter AI

Gustav Johan Carlén var en mann som ble født inn i de verst tenkelige omstendighetene. Fattigdom, barnearbeid, diskriminering. Men han beholdt sin verdighet, lærte seg å skrive, og dokumenterte sitt liv i dikt.

«Det lyse maa for andre, som uti tusental foruten lys nu vandre i livets skyggedal», skrev han i diktet «Lys på veien» i februar 1919.

Nå, over 100 år senere, kan disse ordene endelig nå ut til verden – ikke som tekst i en skuff, men som levende musikkvideoer. API-drevet AI gjør det mulig å bevare kulturarv på helt nye måter.

Har du gamle tekster liggende? Dikt, brev, historier? Med riktig API-workflow kan de også få nytt liv.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

You May Also Like

Jeg lagde 150 sanger med Suno AI – Her er hva jeg lærte

8 måneders erfaring med Suno AI-musikk. Engelsk er topp, norsk er greit nok. Tippoldefars dikt ble til sanger. Ærlig vurdering fra 150+ genererte låter.

Suno AI Copyright – Hva du trenger å vite om rettigheter (2025)

Komplett guide til Suno AI copyright-regler. Pro vs Free, kommersielt bruk, juridiske fallgruver og profesjonelle tips. Oppdatert ToS november 2025.

Jeg testet Nano Banana Pro: AI som faktisk skriver norsk i bilder

Endelig! En AI som kan generere norsk tekst i bilder med 94% nøyaktighet. Jeg testet Nano Banana Pro grundig – her er resultatene.

Google NotebookLM

Google NotebookLM er en AI-assistent som gjør dokumenter om til interaktive samtaler, studieguidere og podcasts på norsk. Nå drevet av Gemini 3 Pro med nye funksjoner som infographics, slide decks og Deep Research. Komplett guide til gratis vs. Plus-versjon.