Innhold Vis
Lance er en 3 milliarder parameter stor open source-modell fra ByteDance som gjør noe ganske få modeller klarer – håndterer bilde og video (generering, redigering og forståelse) i ett og samme system. Apache 2.0-lisens og tilgjengelig på HuggingFace fra dag én.
Vanligvis er spesialistmodeller bedre enn generalistmodeller. Det er nesten en lov i AI-verdenen. En modell som bare genererer bilder slår nesten alltid en som prøver å gjøre alt. Lance utfordrer det premisset direkte, og benchmarktallene er overraskende gode for størrelsen.
Det er særlig to ting som skiller Lance fra mengden: treningsbudsjettet er latterlig lavt (128 A100-er for en 3B-modell er ingenting), og ytelsen holder seg konkurransedyktig mot modeller to til tre ganger så store.
Hva er Lance, og hva kan den gjøre?
Lance er laget av ByteDances Intelligent Creation Team – samme selskap bak TikTok, CapCut og Seedance 2.0. Modellen støtter seks oppgavetyper:
- Tekst-til-video (t2v)
- Tekst-til-bilde (t2i)
- Bilderedigering med instruksjoner
- Videoredigering (bakgrunn, objekter, stil)
- Bildeforståelse og VQA (visual question answering)
- Videoforståelse, teksting og spørsmål-svar
Arkitekturen er bygd rundt et prinsipp om at forståelse og generering hjelper hverandre. Modellen bruker ViT-tokens for forståelsesoppgaver og VAE-latenter for generering, med delt 3D kausal attention. Det er et smart triks – i stedet for å trene separate modeller og sy dem sammen, trenes alt som ett system fra bunnen av.
Basert på Qwen2.5-VL-3B-Instruct som utgangspunkt, er Lance trent med en «staged multi-task recipe» – en trinnvis prosess der modellen gradvis lærer de ulike oppgavetypene i synergistisk rekkefølge.

Hva sier benchmarkene?
Lance scorer 0,90 på GenEval – samme som TUNA, som er en 7B-modell. Med bare 3 milliarder parametere er det imponerende. På DPG-Bench lander den på 84,67 totalt, med særlig sterke resultater på relasjonsforståelse mellom objekter.
For videogenerering henter Lance 85,11 på VBench – det høyeste resultatet blant modeller under 3 milliarder parametere, foran Show-o2 (2B) og TUNA (1,5B). MVBench gir 62,0 i gjennomsnitt for videoforståelse, beste resultatet blant unified modeller.
Bilderedigering er kanskje det mest interessante målepunktet: 7,30 på GEdit-Bench er det beste resultatet blant unified modeller, og konkurrerer med Qwen-Image-Edit som har 20 milliarder parametere. En 3B-modell som matcher en 20B-modell på redigering er et godt argument for at multi-task synergy faktisk fungerer.
En liten advarsel: benchmarks er alltid benchmarks. De forteller hva som fungerer på testsettet, ikke nødvendigvis hva som fungerer i din spesifikke brukscase. Det er stor forskjell på å score bra i kontrollerte tester og å levere bilder eller videoer som faktisk er brukbare i produksjon. HiDream-O1-Image er et godt eksempel på at state-of-the-art tall ikke alltid betyr state-of-the-art opplevelse.
Hva krever Lance av hardware?
Her kommer den store utfordringen: 40 GB VRAM minimum. Det er ikke akkurat en maskin folk flest har hjemme. En RTX 4090 har 24 GB VRAM, så den er rett og slett for liten. Du trenger en A100, H100, eller tilsvarende for lokal kjøring.
Utover det: Python 3.10+, CUDA 12.4+, og modellvektene fra HuggingFace. Installasjon er grei nok – kjør setup-scriptet, last ned checkpoints til en downloads/-mappe, og bruk enten kommandolinjeverktøyet eller Gradio-grensesnittet.
- Inferensscript:
bash inference_lance.sh - Gradio-grensesnitt:
python lance_gradio_t2v_v2t.py --gpus 0 --server-port 7860 - Konfigurerbart: antall genereringssteg, guidance scale, oppløsning (opp til 768p for video), antall frames (standard 50)
For de som ikke har tilgang til slike GPUer lokalt, er RunPod eller Google Colab med A100-tilgang de naturlige alternativene. Modellvektene er fritt tilgjengelige på HuggingFace, så det er bare compute som koster noe.

Hvorfor er Apache 2.0-lisensen viktig?
Apache 2.0 er det som gjør Lance spesielt interessant for folk som vil bygge noe. Lisensen tillater kommersiell bruk, distribusjon, modifikasjon og integrering i egne produkter – uten krav om at du deler kildekoden. Den eneste forpliktelsen er å beholde copyright-notisene.
Til sammenligning har mange AI-modeller egne lisenser som begrenser kommersiell bruk, krever søknad om tilgang, eller forbyr visse bruksområder. Apache 2.0 fjerner den usikkerheten. Det er viktig for alle som vurderer å bygge produkter eller tjenester rundt modellen.
Open source AI er noe jeg har fulgt tett siden tidlig Stable Diffusion-tid, og trenden er klar: lisensene blir mer åpne, ikke mer restriktive. Lance følger den trenden og gjør det enkelt å vite hva du kan gjøre med modellen. Open source AI-guiden min dekker mer om hva dette betyr i praksis for ulike prosjekter.
Hva skiller Lance fra andre unified modeller?
Poenget med unified modeller er at de kan gjøre alt i én modell i stedet for å sette sammen tre-fire separate systemer. Det finnes noen få andre som prøver seg på det samme – Show-o2, TUNA og Janus fra DeepSeek er de mest kjente.
Lance skiller seg ut på to punkter: treningseffektivitet og redigeringskapabilitet. 128 A100-er for å trene en 3B-modell fra bunnen er ekstremt lavt. De fleste modeller på denne størrelsen bruker langt mer compute. Det tyder på at multi-task synergy-tilnærmingen faktisk er effektiv – oppgavene hjelper hverandre i stedet for å konkurrere om kapasitet.
Videoredigeringsdelen er uvanlig god for en modell i denne klassen. Bakgrunnsbytte, objektmanipulering, stiloverføring og multi-turn konsistensredigering (der du redigerer i flere steg uten å miste sammenheng) er alle støttet. For video-AI spesifikt kan du lese mer om hvor feltet er akkurat nå i den komplette guiden til AI-video i 2026.
En modell som Alice v1 fokuserer bare på video og gjør det veldig bra. Lance prioriterer bredde fremfor spesialdybde – men klarer å holde imponerende kvalitet på tross av det.
Hvem er Lance relevant for?
Tilgangen til hardware er den største barrieren. 40 GB VRAM utelukker de fleste konsumerkort. Men det er grupper der Lance faktisk er interessant:
Forskere og akademikere som vil studere unified multimodal arkitekturer – Apache 2.0 og full kildekode på GitHub gjør det mulig å grave i detaljene.
Produktutviklere som trenger ett system for bilde og video i stedet for separate API-er. Med cloud-kjøring (RunPod, Vast.ai) er det gjennomførbart.
Eksperimentelle brukere med tilgang til enten bedrifts-GPU eller skymiljø – 50 frames video i 768p er fullt brukbart for mange formål.
For ren bildegenerering der du allerede har et system som fungerer, er det vanskelig å argumentere for å bytte. Men for noen som vil bygge noe nytt og trenger å håndtere både bilde og video – og helst ikke betale for to separate API-er – er Lance et alternativ verdt å teste.
Hva tenker du? Er unified modeller veien å gå, eller er det fortsatt spesialistmodeller som gjelder for deg?