Kling O1 unified multimodal video AI - tekstbasert videoredigering og generering

Jeg har fulgt AI-video-utviklingen tett siden Runway Gen-1 kom ut. Hvert år blir modellene bedre – lengre klipp, bedre realisme, færre artefakter. Men én ting har alltid irritert meg: Du må bruke separate verktøy for å generere video og separate verktøy for å redigere den.

1. desember 2025 lanserte Kuaishou Technology (Kling) noe som faktisk endrer denne flyten. Kling O1 er verdens første unified multimodal video-modell – ett system som kombinerer videogenerering og videoredigering. Tenk Nano Banana Pro, men for video.

Det spennende er ikke bare at du kan «snakke» med videoen din («endre til nattscene», «fjern folk i bakgrunnen»). Det er Elements-funksjonen – muligheten til å laste opp opptil 7 referansebilder og bruke dem konsistent på tvers av alle klipp.

Hva er Kling O1?

Kling O1 er en AI-modell som kombinerer to tidligere separate arbeidsflyter: videogenerering (lag nye klipp) og videoredigering (endre eksisterende klipp). Den bruker en Multimodal Visual Language (MVL)-arkitektur som forstår tekst, bilder, video, og «subjects» (karakterer/objekter) i samme modell.

Før Kling O1 måtte du gjerne jobbe sånn:

  • Generer video i ett verktøy (Runway, Pika, Veo)
  • Eksporter til redigeringsprogram
  • Manuell masking hvis du vil endre karakterer eller bakgrunn
  • Keyframing for å holde karakterer konsistente
  • Eksporter og prøv igjen hvis det ikke fungerte

Med Kling O1:

  • Last opp video eller still-bilde
  • Skriv hva du vil endre i tekst
  • Modellen gjør jobben uten masking
  • Samme karakter i alle shots hvis du bruker referansebilder

Det høres kanskje subtilt ut på papiret, men i praksis sparer dette timer med post-production.

Kling O1 workflow diagram showing unified multimodal input and output

Elements-funksjonen: @-referanser for konsistens

Dette er gamechangeren.

Du laster opp opptil 7 referansebilder og gir dem navn (image1, image2, etc.). Når du skriver prompten din, refererer du til dem med @-tegn:

"@image1 walking through a forest at sunset"

Modellen forstår at @image1 er subjektet – la oss si en spesifikk karakter du har lastet opp – og holder den karakteren konsistent gjennom hele klippet.

Dette er enormt nyttig for:

  • Musikkvideo-produksjon: Samme artist i alle shots uten å filme alt på nytt
  • Kortfilm/storytelling: Konsistente karakterer fra scene til scene
  • Face-swap: Sett deg selv inn i filmscener med naturlig utseende
  • Produktdemoer: Samme produktutseende fra alle vinkler

Før Kling O1 måtte du stole på at modellen «husket» hvordan karakteren så ut – ofte med varierende suksess. Nå har du full kontroll.

Tekstbasert videoredigering

Greia er – du trenger ikke lenger maskere områder du vil endre.

Tradisjonell videoredigering krever at du markerer presist hva som skal endres. Vil du skifte klær på en karakter? Du må maske hele kroppen frame-by-frame. Vil du fjerne folk i bakgrunnen? Manuell rotoscoping.

Kling O1 forstår kontekst. Du skriver bare:

KommandoResultat
«Change to night»Skifter lysforhold til nattscene
«Remove passersby»Fjerner folk i bakgrunnen
«Change outfit to red dress»Bytter klær på karakteren
«Add fireworks in background»Legger til fyrverkeri naturlig
«Change background to green screen»Perfekt for compositing senere
«Transition day to dusk»Gradvis overgang til skumring

Modellen analyserer hver frame, identifiserer objekter/karakterer/bakgrunn, og gjør endringene konsistent gjennom hele klippet.

Dette fungerer fordi Kling O1 bruker Chain-of-Thought reasoning – den tenker logisk gjennom hva som må endre seg fra frame til frame for å holde bevegelse naturlig.

Kling O1 text-based editing examples showing before and after transformations

Transformation-funksjonen

Vil du sette deg selv inn i en filmscene?

Transformation-fanen lar deg bytte ut karakterer i eksisterende video med ditt eget ansikt (eller hvilken som helst referanse du laster opp).

Slik fungerer det:

  1. Velg «Transformation» i Kling-appen
  2. Last opp din video (f.eks. scene fra The Matrix)
  3. Last opp referansebilde (portrett av deg selv)
  4. Skriv: "Change the man in @video1 to the man in @image1"
  5. Generer

Modellen bytter ansiktet konsistent gjennom alle frames – ikke bare som et flatt overlay, men med korrekt perspektiv, lysforhold, og bevegelse.

AI Samson testet dette ved å sette seg selv inn i Matrix Neo-scenen. Resultatet? Overraskende overbevisende – bevegelse og ansiktsuttrykk holdt seg naturlig.

Dette åpner for mye kreativitet. Tenk musikkvideo der du vil teste forskjellige «looks» på artisten. Eller markedsføring der du bytter modeller uten å filme alt på nytt.

Start/End Frame-generering

En mer eksperimentell funksjon – du gir modellen første og siste frame, og den lager overgangen mellom dem.

AI Samson testet med to bilder: én av en kvinne, én av en hest. Modellen laget en morphing-overgang mellom dem. Resultatet var… surrealistisk. Han kalte det «nightmare fuel».

Men dette har faktisk praktisk bruk:

  • Morphing-effekter: Smooth overganger mellom objekter/karakterer
  • Kreative overganger: Ikke-lineære scene-skift
  • Drømmesekvenser: Visuelt sett der logikk ikke gjelder
  • Kunstneriske prosjekter: Eksperimentell video-kunst

Det er ikke noe du bruker daglig, men når du trenger det, er det gull.

Realism og kvalitet

La meg være ærlig – AI-video er fortsatt ikke perfekt.

AI Samson testet Kling O1 grundig med utfordrende scenarier. Her er hva som fungerer bra og hva som fortsatt sliter:

Styrker:

  • Kompleks bevegelse: Fisk som svømmer med realistiske lysbrytninger under vann
  • Refleksjoner: Speil viser korrekt refleksjon (historisk vanskelig for AI)
  • Spising: Riktig bite-størrelse og munnbevegelse (tidligere katastrofalt dårlig)
  • 360-graders konsistens: Samme karakter ser lik ut fra alle vinkler
  • Naturlig flyt: Bevegelser føles organiske, ikke robotiske

Svakheter:

  • Menneskelig konflikt: Bryting/kamp-scener kan vise morphing mellom personer
  • Lemmer gjennom objekter: Armer/ben kan kollapse gjennom hverandre
  • Hår-fysikk: Hår kan gå gjennom hatter eller klær unaturlig
  • Klapping: Hender kan smelte sammen når de møtes

Disse problemene er ikke unike for Kling O1 – alle AI-videomodeller sliter med samme ting. Men det er verdt å vite før du planlegger prosjekter.

Kling O1 quality comparison chart vs Veo 3.1 and Runway

Sammenligning med konkurrentene

Hvordan står Kling O1 seg mot Google Veo 3.1, Sora 2, og Runway?

FunksjonKling O1Veo 3.1Sora 2Runway
Multimodal inputJa (7+ referanser)DelvisNeiDelvis
Tekst-redigeringJaNeiNeiDelvis
Elements (@ref)JaNeiNeiNei
Unified modelJaNeiNeiNei
Max lengde10 sek8 sek20 sek10 sek

Klings egne benchmarks hevder:

  • 247% win ratio mot Google Veo 3.1 Fast (image reference) – 62% wins, 32% ties
  • 230% win ratio mot Runway Aleph (video transformation) – 61% wins, 29% ties

Jeg tar alltid produsentens egne tall med en klype salt. Men Elements-funksjonen er faktisk unik – ingen andre har den implementert ennå.

Sora 2 har lengre klipp (20 sek), men mangler tekstbasert redigering. Veo 3.1 har god kvalitet, men ingen unified workflow. Runway har noen av disse funksjonene spredt, men ikke i samme modell.

Kling O1 skiller seg ut ved å samle alt på ett sted.

Priser og tilgjengelighet

Kling O1 er tilgjengelig på tre måter:

1. Kling-plattformen (kreditt-system):

  • Tekst-til-video: 8 credits per sekund
  • Med referanse (bilde/video): 12 credits per sekund

Eksempler:

  • 5 sek klipp uten input: 40 credits
  • 10 sek klipp med referanse: 120 credits

Entry plan koster $8.80/måned og gir nok credits til ~33 standard-videoer.

2. Via Art List:

Art List tilbyr abonnement der du får tilgang til flere modeller (Kling O1, Nano Banana Pro, Flux 2.0, Sora 2, Veo 3.1) i ett abonnement.

$9.42/måned for 16,500 credits – det dekker cirka 55 videoer.

3. Via fal.ai API:

For utviklere: $0.112 per sekund.

  • 5 sek klipp: ~$0.84
  • 10 sek klipp: ~$1.68

Perfekt hvis du skal integrere Kling O1 i egne workflows eller applikasjoner.

Kreative bruksområder

Hva kan du faktisk bruke dette til?

Film/TV-produksjon:

  • Konsistente karakterer på tvers av scener uten continuity-bekymringer
  • Rask re-styling av shots (dag til natt, sommer til vinter)
  • Green screen-konvertering med ett tekstprompt

Markedsføring:

  • Produktplassering i eksisterende footage uten reshoots
  • A/B-test forskjellige stiler raskt
  • Personaliserte videoer per kundesegment (bytt modell, bakgrunn, produktfarge)

Sosiale medier:

  • Sett deg selv inn i filmscener for meme-videoer
  • Konsistente karakterer for serialisert innhold
  • Raske edits uten å åpne Premiere Pro

E-commerce:

  • Produktdemoer med konsistent stil på tvers av SKU-er
  • Modell-bytte uten ny filming (test forskjellige demografier)
  • Bakgrunns-tilpasning per marked (hjemmekontor i Norge vs strandscene i Spania)

Jeg sier ikke at Kling O1 erstatter profesjonell produksjon. Men det senker terskelen betydelig – spesielt for content creators og små bedrifter.

Slik kommer du i gang

Enkleste vei:

  1. Gå til klingI.COM
  2. Opprett konto (gratis å teste)
  3. Velg Kling O1 fra modell-menyen
  4. Last opp referanser og start eksperimentering

Tips for best resultat:

  • Bruk høykvalitets referansebilder: Skarpe, godt belyste bilder gir bedre konsistens
  • Vær spesifikk i prompter: «Change to night with streetlights» er bedre enn bare «night»
  • Start med korte klipp: 5 sek er lettere å kontrollere enn 10 sek
  • Test Elements-funksjonen tidlig: Det er den mest kraftige funksjonen

Konklusjon

Kling O1 representerer noe nytt i AI-video-landskapet.

Det er ikke bare en ny modell som genererer litt bedre video. Det er en unified workflow som kombinerer generering og redigering – noe vi ikke har sett før.

Elements-funksjonen med @-referanser løser et reelt problem: karakter-konsistens. Tekstbasert redigering uten masking sparer enormt mye tid. Transformation-funksjonen åpner for kreativitet som før krevde profesjonelt utstyr.

Selvfølgelig – det er fortsatt begrensninger. Max 10 sekunder føles kort. Morphing-artefakter ved kompleks interaksjon er frustrerende. Og noen ganger gjør modellen rare tolkninger av promptene dine.

Men sånn sett – vi er i starten av denne teknologien. For to år siden var AI-video 3 sekunders ustabile klipp. Nå har vi 10 sekunder med konsistente karakterer og tekstbasert redigering.

Hva tenker du? Er unified multimodal models framtiden for AI-video, eller foretrekker du separate verktøy for generering vs redigering?

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

You May Also Like

Jeg lagde 150 sanger med Suno AI – Her er hva jeg lærte

8 måneders erfaring med Suno AI-musikk. Engelsk er topp, norsk er greit nok. Tippoldefars dikt ble til sanger. Ærlig vurdering fra 150+ genererte låter.

Suno AI Copyright – Hva du trenger å vite om rettigheter (2025)

Komplett guide til Suno AI copyright-regler. Pro vs Free, kommersielt bruk, juridiske fallgruver og profesjonelle tips. Oppdatert ToS november 2025.

Jeg testet Nano Banana Pro: AI som faktisk skriver norsk i bilder

Endelig! En AI som kan generere norsk tekst i bilder med 94% nøyaktighet. Jeg testet Nano Banana Pro grundig – her er resultatene.

GPT-5.2: Jeg testet OpenAIs nyeste modell – her er hva som faktisk fungerer

GPT-5.2 er ute med tre versjoner. Jeg har testet thinking-modellen, sammenlignet med 5.1, og funnet ut hva som faktisk er bedre. Her er mine erfaringer.