Kling O1 – Tekstbasert videoredigering med AI

Jeg har fulgt AI-video-utviklingen tett siden Runway Gen-1 kom ut. Hvert år blir modellene bedre – lengre klipp, bedre realisme, færre artefakter. Men én ting har alltid irritert meg: Du må bruke separate verktøy for å generere video og separate verktøy for å redigere den.

1. desember 2025 lanserte Kuaishou Technology (Kling) noe som faktisk endrer denne flyten. Kling O1 er verdens første unified multimodal video-modell – ett system som kombinerer videogenerering og videoredigering. Tenk Nano Banana Pro, men for video.

Det spennende er ikke bare at du kan «snakke» med videoen din («endre til nattscene», «fjern folk i bakgrunnen»). Det er Elements-funksjonen – muligheten til å laste opp opptil 7 referansebilder og bruke dem konsistent på tvers av alle klipp.

Hva er Kling O1?

Kling O1 er en AI-modell som kombinerer to tidligere separate arbeidsflyter: videogenerering (lag nye klipp) og videoredigering (endre eksisterende klipp). Den bruker en Multimodal Visual Language (MVL)-arkitektur som forstår tekst, bilder, video, og «subjects» (karakterer/objekter) i samme modell.

Før Kling O1 måtte du gjerne jobbe sånn:

Generer video i ett verktøy (Runway, Pika, Veo)
Eksporter til redigeringsprogram
Manuell masking hvis du vil endre karakterer eller bakgrunn
Keyframing for å holde karakterer konsistente
Eksporter og prøv igjen hvis det ikke fungerte

Med Kling O1:

Last opp video eller still-bilde
Skriv hva du vil endre i tekst
Modellen gjør jobben uten masking
Samme karakter i alle shots hvis du bruker referansebilder

Det høres kanskje subtilt ut på papiret, men i praksis sparer dette timer med post-production.

Kling O1 workflow diagram showing unified multimodal input and output

Elements-funksjonen: @-referanser for konsistens

Dette er gamechangeren.

Du laster opp opptil 7 referansebilder og gir dem navn (image1, image2, etc.). Når du skriver prompten din, refererer du til dem med @-tegn:

"@image1 walking through a forest at sunset"

Modellen forstår at @image1 er subjektet – la oss si en spesifikk karakter du har lastet opp – og holder den karakteren konsistent gjennom hele klippet.

Dette er enormt nyttig for:

Musikkvideo-produksjon: Samme artist i alle shots uten å filme alt på nytt
Kortfilm/storytelling: Konsistente karakterer fra scene til scene
Face-swap: Sett deg selv inn i filmscener med naturlig utseende
Produktdemoer: Samme produktutseende fra alle vinkler

Før Kling O1 måtte du stole på at modellen «husket» hvordan karakteren så ut – ofte med varierende suksess. Nå har du full kontroll.

Tekstbasert videoredigering

Greia er – du trenger ikke lenger maskere områder du vil endre.

Tradisjonell videoredigering krever at du markerer presist hva som skal endres. Vil du skifte klær på en karakter? Du må maske hele kroppen frame-by-frame. Vil du fjerne folk i bakgrunnen? Manuell rotoscoping.

Kling O1 forstår kontekst. Du skriver bare:

Kommando	Resultat
«Change to night»	Skifter lysforhold til nattscene
«Remove passersby»	Fjerner folk i bakgrunnen
«Change outfit to red dress»	Bytter klær på karakteren
«Add fireworks in background»	Legger til fyrverkeri naturlig
«Change background to green screen»	Perfekt for compositing senere
«Transition day to dusk»	Gradvis overgang til skumring

Modellen analyserer hver frame, identifiserer objekter/karakterer/bakgrunn, og gjør endringene konsistent gjennom hele klippet.

Dette fungerer fordi Kling O1 bruker Chain-of-Thought reasoning – den tenker logisk gjennom hva som må endre seg fra frame til frame for å holde bevegelse naturlig.

Kling O1 text-based editing examples showing before and after transformations

Transformation-funksjonen

Vil du sette deg selv inn i en filmscene?

Transformation-fanen lar deg bytte ut karakterer i eksisterende video med ditt eget ansikt (eller hvilken som helst referanse du laster opp).

Slik fungerer det:

Velg «Transformation» i Kling-appen
Last opp din video (f.eks. scene fra The Matrix)
Last opp referansebilde (portrett av deg selv)
Skriv: "Change the man in @video1 to the man in @image1"
Generer

Modellen bytter ansiktet konsistent gjennom alle frames – ikke bare som et flatt overlay, men med korrekt perspektiv, lysforhold, og bevegelse.

AI Samson testet dette ved å sette seg selv inn i Matrix Neo-scenen. Resultatet? Overraskende overbevisende – bevegelse og ansiktsuttrykk holdt seg naturlig.

Dette åpner for mye kreativitet. Tenk musikkvideo der du vil teste forskjellige «looks» på artisten. Eller markedsføring der du bytter modeller uten å filme alt på nytt.

Start/End Frame-generering

En mer eksperimentell funksjon – du gir modellen første og siste frame, og den lager overgangen mellom dem.

AI Samson testet med to bilder: én av en kvinne, én av en hest. Modellen laget en morphing-overgang mellom dem. Resultatet var… surrealistisk. Han kalte det «nightmare fuel».

Men dette har faktisk praktisk bruk:

Morphing-effekter: Smooth overganger mellom objekter/karakterer
Kreative overganger: Ikke-lineære scene-skift
Drømmesekvenser: Visuelt sett der logikk ikke gjelder
Kunstneriske prosjekter: Eksperimentell video-kunst

Det er ikke noe du bruker daglig, men når du trenger det, er det gull.

Realism og kvalitet

La meg være ærlig – AI-video er fortsatt ikke perfekt.

AI Samson testet Kling O1 grundig med utfordrende scenarier. Her er hva som fungerer bra og hva som fortsatt sliter:

Styrker:

Kompleks bevegelse: Fisk som svømmer med realistiske lysbrytninger under vann
Refleksjoner: Speil viser korrekt refleksjon (historisk vanskelig for AI)
Spising: Riktig bite-størrelse og munnbevegelse (tidligere katastrofalt dårlig)
360-graders konsistens: Samme karakter ser lik ut fra alle vinkler
Naturlig flyt: Bevegelser føles organiske, ikke robotiske

Svakheter:

Menneskelig konflikt: Bryting/kamp-scener kan vise morphing mellom personer
Lemmer gjennom objekter: Armer/ben kan kollapse gjennom hverandre
Hår-fysikk: Hår kan gå gjennom hatter eller klær unaturlig
Klapping: Hender kan smelte sammen når de møtes

Disse problemene er ikke unike for Kling O1 – alle AI-videomodeller sliter med samme ting. Men det er verdt å vite før du planlegger prosjekter.

Kling O1 quality comparison chart vs Veo 3.1 and Runway

Sammenligning med konkurrentene

Hvordan står Kling O1 seg mot Google Veo 3.1, Sora 2, og Runway?

Funksjon	Kling O1	Veo 3.1	Sora 2	Runway
Multimodal input	Ja (7+ referanser)	Delvis	Nei	Delvis
Tekst-redigering	Ja	Nei	Nei	Delvis
Elements (@ref)	Ja	Nei	Nei	Nei
Unified model	Ja	Nei	Nei	Nei
Max lengde	10 sek	8 sek	20 sek	10 sek

Klings egne benchmarks hevder:

247% win ratio mot Google Veo 3.1 Fast (image reference) – 62% wins, 32% ties
230% win ratio mot Runway Aleph (video transformation) – 61% wins, 29% ties

Jeg tar alltid produsentens egne tall med en klype salt. Men Elements-funksjonen er faktisk unik – ingen andre har den implementert ennå.

Sora 2 har lengre klipp (20 sek), men mangler tekstbasert redigering. Veo 3.1 har god kvalitet, men ingen unified workflow. Runway har noen av disse funksjonene spredt, men ikke i samme modell.

Kling O1 skiller seg ut ved å samle alt på ett sted.

Priser og tilgjengelighet

Kling O1 er tilgjengelig på tre måter:

1. Kling-plattformen (kreditt-system):

Tekst-til-video: 8 credits per sekund
Med referanse (bilde/video): 12 credits per sekund

Eksempler:

5 sek klipp uten input: 40 credits
10 sek klipp med referanse: 120 credits

Entry plan koster $8.80/måned og gir nok credits til ~33 standard-videoer.

2. Via Art List:

Art List tilbyr abonnement der du får tilgang til flere modeller (Kling O1, Nano Banana Pro, Flux 2.0, Sora 2, Veo 3.1) i ett abonnement.

$9.42/måned for 16,500 credits – det dekker cirka 55 videoer.

3. Via fal.ai API:

For utviklere: $0.112 per sekund.

5 sek klipp: ~$0.84
10 sek klipp: ~$1.68

Perfekt hvis du skal integrere Kling O1 i egne workflows eller applikasjoner.

Kreative bruksområder

Hva kan du faktisk bruke dette til?

Film/TV-produksjon:

Konsistente karakterer på tvers av scener uten continuity-bekymringer
Rask re-styling av shots (dag til natt, sommer til vinter)
Green screen-konvertering med ett tekstprompt

Markedsføring:

Produktplassering i eksisterende footage uten reshoots
A/B-test forskjellige stiler raskt
Personaliserte videoer per kundesegment (bytt modell, bakgrunn, produktfarge)

Sosiale medier:

Sett deg selv inn i filmscener for meme-videoer
Konsistente karakterer for serialisert innhold
Raske edits uten å åpne Premiere Pro

E-commerce:

Produktdemoer med konsistent stil på tvers av SKU-er
Modell-bytte uten ny filming (test forskjellige demografier)
Bakgrunns-tilpasning per marked (hjemmekontor i Norge vs strandscene i Spania)

Jeg sier ikke at Kling O1 erstatter profesjonell produksjon. Men det senker terskelen betydelig – spesielt for content creators og små bedrifter.

Slik kommer du i gang

Enkleste vei:

Gå til klingI.COM
Opprett konto (gratis å teste)
Velg Kling O1 fra modell-menyen
Last opp referanser og start eksperimentering

Tips for best resultat:

Bruk høykvalitets referansebilder: Skarpe, godt belyste bilder gir bedre konsistens
Vær spesifikk i prompter: «Change to night with streetlights» er bedre enn bare «night»
Start med korte klipp: 5 sek er lettere å kontrollere enn 10 sek
Test Elements-funksjonen tidlig: Det er den mest kraftige funksjonen

Konklusjon

Kling O1 representerer noe nytt i AI-video-landskapet.

Det er ikke bare en ny modell som genererer litt bedre video. Det er en unified workflow som kombinerer generering og redigering – noe vi ikke har sett før.

Elements-funksjonen med @-referanser løser et reelt problem: karakter-konsistens. Tekstbasert redigering uten masking sparer enormt mye tid. Transformation-funksjonen åpner for kreativitet som før krevde profesjonelt utstyr.

Selvfølgelig – det er fortsatt begrensninger. Max 10 sekunder føles kort. Morphing-artefakter ved kompleks interaksjon er frustrerende. Og noen ganger gjør modellen rare tolkninger av promptene dine.

Men sånn sett – vi er i starten av denne teknologien. For to år siden var AI-video 3 sekunders ustabile klipp. Nå har vi 10 sekunder med konsistente karakterer og tekstbasert redigering.

Hva tenker du? Er unified multimodal models framtiden for AI-video, eller foretrekker du separate verktøy for generering vs redigering?