Lance er en 3 milliarder parameter stor open source-modell fra ByteDance som gjør noe ganske få modeller klarer – håndterer bilde og video (generering, redigering og forståelse) i ett og samme system. Apache 2.0-lisens og tilgjengelig på HuggingFace fra dag én.

Vanligvis er spesialistmodeller bedre enn generalistmodeller. Det er nesten en lov i AI-verdenen. En modell som bare genererer bilder slår nesten alltid en som prøver å gjøre alt. Lance utfordrer det premisset direkte, og benchmarktallene er overraskende gode for størrelsen.

Det er særlig to ting som skiller Lance fra mengden: treningsbudsjettet er latterlig lavt (128 A100-er for en 3B-modell er ingenting), og ytelsen holder seg konkurransedyktig mot modeller to til tre ganger så store.

Hva er Lance, og hva kan den gjøre?

Lance er laget av ByteDances Intelligent Creation Team – samme selskap bak TikTok, CapCut og Seedance 2.0. Modellen støtter seks oppgavetyper:

  • Tekst-til-video (t2v)
  • Tekst-til-bilde (t2i)
  • Bilderedigering med instruksjoner
  • Videoredigering (bakgrunn, objekter, stil)
  • Bildeforståelse og VQA (visual question answering)
  • Videoforståelse, teksting og spørsmål-svar

Arkitekturen er bygd rundt et prinsipp om at forståelse og generering hjelper hverandre. Modellen bruker ViT-tokens for forståelsesoppgaver og VAE-latenter for generering, med delt 3D kausal attention. Det er et smart triks – i stedet for å trene separate modeller og sy dem sammen, trenes alt som ett system fra bunnen av.

Basert på Qwen2.5-VL-3B-Instruct som utgangspunkt, er Lance trent med en «staged multi-task recipe» – en trinnvis prosess der modellen gradvis lærer de ulike oppgavetypene i synergistisk rekkefølge.

Lance AI-arkitektur med seks oppgavetyper: tekst-til-bilde, tekst-til-video, bilderedigering, videoredigering, bildeforståelse og videoforståelse
Lance samler seks oppgavetyper i ett og samme 3B-modellsystem

Hva sier benchmarkene?

Lance scorer 0,90 på GenEval – samme som TUNA, som er en 7B-modell. Med bare 3 milliarder parametere er det imponerende. På DPG-Bench lander den på 84,67 totalt, med særlig sterke resultater på relasjonsforståelse mellom objekter.

For videogenerering henter Lance 85,11 på VBench – det høyeste resultatet blant modeller under 3 milliarder parametere, foran Show-o2 (2B) og TUNA (1,5B). MVBench gir 62,0 i gjennomsnitt for videoforståelse, beste resultatet blant unified modeller.

Bilderedigering er kanskje det mest interessante målepunktet: 7,30 på GEdit-Bench er det beste resultatet blant unified modeller, og konkurrerer med Qwen-Image-Edit som har 20 milliarder parametere. En 3B-modell som matcher en 20B-modell på redigering er et godt argument for at multi-task synergy faktisk fungerer.

En liten advarsel: benchmarks er alltid benchmarks. De forteller hva som fungerer på testsettet, ikke nødvendigvis hva som fungerer i din spesifikke brukscase. Det er stor forskjell på å score bra i kontrollerte tester og å levere bilder eller videoer som faktisk er brukbare i produksjon. HiDream-O1-Image er et godt eksempel på at state-of-the-art tall ikke alltid betyr state-of-the-art opplevelse.

Hva krever Lance av hardware?

Her kommer den store utfordringen: 40 GB VRAM minimum. Det er ikke akkurat en maskin folk flest har hjemme. En RTX 4090 har 24 GB VRAM, så den er rett og slett for liten. Du trenger en A100, H100, eller tilsvarende for lokal kjøring.

Utover det: Python 3.10+, CUDA 12.4+, og modellvektene fra HuggingFace. Installasjon er grei nok – kjør setup-scriptet, last ned checkpoints til en downloads/-mappe, og bruk enten kommandolinjeverktøyet eller Gradio-grensesnittet.

  • Inferensscript: bash inference_lance.sh
  • Gradio-grensesnitt: python lance_gradio_t2v_v2t.py --gpus 0 --server-port 7860
  • Konfigurerbart: antall genereringssteg, guidance scale, oppløsning (opp til 768p for video), antall frames (standard 50)

For de som ikke har tilgang til slike GPUer lokalt, er RunPod eller Google Colab med A100-tilgang de naturlige alternativene. Modellvektene er fritt tilgjengelige på HuggingFace, så det er bare compute som koster noe.

A100 GPU-kort i serverstativ - Lance krever minimum 40GB VRAM for lokal kjøring
Lance krever minimum 40 GB VRAM – A100 eller tilsvarende for lokal kjøring

Hvorfor er Apache 2.0-lisensen viktig?

Apache 2.0 er det som gjør Lance spesielt interessant for folk som vil bygge noe. Lisensen tillater kommersiell bruk, distribusjon, modifikasjon og integrering i egne produkter – uten krav om at du deler kildekoden. Den eneste forpliktelsen er å beholde copyright-notisene.

Til sammenligning har mange AI-modeller egne lisenser som begrenser kommersiell bruk, krever søknad om tilgang, eller forbyr visse bruksområder. Apache 2.0 fjerner den usikkerheten. Det er viktig for alle som vurderer å bygge produkter eller tjenester rundt modellen.

Open source AI er noe jeg har fulgt tett siden tidlig Stable Diffusion-tid, og trenden er klar: lisensene blir mer åpne, ikke mer restriktive. Lance følger den trenden og gjør det enkelt å vite hva du kan gjøre med modellen. Open source AI-guiden min dekker mer om hva dette betyr i praksis for ulike prosjekter.

Hva skiller Lance fra andre unified modeller?

Poenget med unified modeller er at de kan gjøre alt i én modell i stedet for å sette sammen tre-fire separate systemer. Det finnes noen få andre som prøver seg på det samme – Show-o2, TUNA og Janus fra DeepSeek er de mest kjente.

Lance skiller seg ut på to punkter: treningseffektivitet og redigeringskapabilitet. 128 A100-er for å trene en 3B-modell fra bunnen er ekstremt lavt. De fleste modeller på denne størrelsen bruker langt mer compute. Det tyder på at multi-task synergy-tilnærmingen faktisk er effektiv – oppgavene hjelper hverandre i stedet for å konkurrere om kapasitet.

Videoredigeringsdelen er uvanlig god for en modell i denne klassen. Bakgrunnsbytte, objektmanipulering, stiloverføring og multi-turn konsistensredigering (der du redigerer i flere steg uten å miste sammenheng) er alle støttet. For video-AI spesifikt kan du lese mer om hvor feltet er akkurat nå i den komplette guiden til AI-video i 2026.

En modell som Alice v1 fokuserer bare på video og gjør det veldig bra. Lance prioriterer bredde fremfor spesialdybde – men klarer å holde imponerende kvalitet på tross av det.

Hvem er Lance relevant for?

Tilgangen til hardware er den største barrieren. 40 GB VRAM utelukker de fleste konsumerkort. Men det er grupper der Lance faktisk er interessant:

Forskere og akademikere som vil studere unified multimodal arkitekturer – Apache 2.0 og full kildekode på GitHub gjør det mulig å grave i detaljene.

Produktutviklere som trenger ett system for bilde og video i stedet for separate API-er. Med cloud-kjøring (RunPod, Vast.ai) er det gjennomførbart.

Eksperimentelle brukere med tilgang til enten bedrifts-GPU eller skymiljø – 50 frames video i 768p er fullt brukbart for mange formål.

For ren bildegenerering der du allerede har et system som fungerer, er det vanskelig å argumentere for å bytte. Men for noen som vil bygge noe nytt og trenger å håndtere både bilde og video – og helst ikke betale for to separate API-er – er Lance et alternativ verdt å teste.

Hva tenker du? Er unified modeller veien å gå, eller er det fortsatt spesialistmodeller som gjelder for deg?

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

Meld deg på nyhetsbrevet

Få oppdateringer om AI nyhetene rett i inboxen!

Du liker kanskje denne også
Jan Sverre arbeider med Suno AI musikk-generering på datamaskinen, kreativt workspace med hodetelefoner

Suno AI – 150 Låter Testet: Hva Funker og Hva Er Bortkastet Tid

Jeg testet 150 Suno-låter og fant tydelige mønstre. Her er hva som faktisk gir kvalitet, og hva som bare kaster bort tid.
Jan Sverre med headphones og lydmikser i boardroom-møte med forvirrede executives

Suno AI Copyright 2026 – Opphavsrett og Rettigheter for AI-Musikk

Kan du tjene penger på Suno-musikk? Her er en praktisk gjennomgang av rettigheter, risiko og hva du bør avklare før publisering.
Jan Sverre styrer et digitalt kontrollpanel omgitt av Claude AI-symboler og glødende lysstriper i et mørkt rom

Claude AI – pris, funksjoner og norsk guide (2026)

Alt om Claude AI i 2026 – priser i norske kroner, Claude Pro vs Max, Claude Code, og ærlig sammenligning med ChatGPT. Komplett norsk guide fra en som bruker Claude daglig.
Jan Sverre riding a dinosaur in safari outfit, photorealistic AI-generated image demonstrating Nano Banana Pro capabilities

Jeg testet Nano Banana Pro: AI som faktisk skriver norsk i bilder

Endelig! En AI som kan generere norsk tekst i bilder med 94% nøyaktighet. Jeg testet Nano Banana Pro grundig – her er resultatene.