Zamba2-VL er en rask vision-language-modell du kan kjøre lokalt – her er hva den faktisk gjør

Innhold Vis

Zyphra har sluppet Zamba2-VL, og den skiller seg fra mengden på én ting: den er rask – veldig rask på å starte opp. Hvis du har prøvd å kjøre vision-language-modeller lokalt vet du at ventetiden fra du sender inn et bilde til modellen begynner å svare kan føles som en evighet. Zamba2-VL lover å kutte den ventetiden med en faktor på ti sammenlignet med vanlige Transformer-modeller av samme størrelse.

Modellen er åpen kildekode under Apache 2.0-lisens, og den finnes i tre størrelser: 1.2B, 2.7B og 7B parametere. Det betyr at selv den største varianten burde gå fint på en moderne GPU med 24 GB VRAM – noe jeg selv har tilgjengelig med en RTX 4090.

Men hva er egentlig Zamba2-VL, og hva gjør den som gjør den interessant utover selve hastigheten? La meg gå gjennom det praktiske.

Hva er Zamba2-VL, og hvordan skiller arkitekturen seg ut?

Zamba2-VL er en vision-language-modell – det vil si en AI-modell som tar inn både bilder og tekst og svarer med tekst. Du kan gi den et bilde av en faktura og spørre om totalsummen, et fotografi og be om en beskrivelse, eller et diagram og spørre om hva dataen viser.

Det som gjør den teknisk interessant er kjernen: en hybrid av Mamba2 state-space-lag og delte Transformer-blokker. I praksis betyr det at modellen bruker Mamba2-arkitektur for hoveddelen av behandlingen, men beholder noen vanlige attention-lag der det trengs for å plukke opp informasjon fra ulike deler av konteksten.

Fordelen med Mamba2 er at den skalerer lineært med kontekstlengde, ikke kvadratisk slik Transformere gjør. For en vanlig Transformer betyr dobbelt så lang kontekst fire ganger så mye beregning. For Mamba2 er det dobbelt – og punktet der dette virkelig merkes er når du sender inn lange dokumenter eller store bilder kodet som mange tokens.

Visuell behandling håndteres av en Vision Transformer-encoder fra Qwen2.5-VL, koblet til språkryggraden via et to-lags MLP-adapter. Selskapet Zyphra har lagt modellene opp på Hugging Face med full vektilgang.

Visualisering av hybrid Mamba2/Transformer-arkitektur med lineær og kvadratisk skalering — Mamba2 skalerer lineært med kontekstlengde – Transformer kvadratisk. Det er der hastighetsforskjellen oppstår.

Hva er time-to-first-token, og hvorfor betyr det noe i praksis?

Time-to-first-token (TTFT) er ventetiden fra du sender en forespørsel til modellen produserer det aller første tegnet i svaret. Det er ikke det samme som total generasjonshastighet – det er ventetiden du sitter og stirrer på en blank skjerm før noe i det hele tatt skjer.

Zyphra oppgir at Zamba2-VL kutter denne ventetiden med omtrent en størrelsesorden sammenlignet med Transformer-baserte VLM-er av tilsvarende størrelse. Effekten er særlig tydelig på lange kontekster – ved 32 000 tokens prefill er forskjellen stor fordi Mamba2-arkitekturens lineære skalering virkelig får arbeide mot Transformerens kvadratiske kostnader.

For praktisk bruk betyr dette noe spesielt hvis du bygger et system som behandler mange dokumenter etter hverandre, eller hvis du vil ha en lokal multimodal assistent som faktisk føles responsiv. En modell som begynner å svare umiddelbart oppleves som vesentlig mer brukervennlig enn en som tenker i ti sekunder før den starter.

Dette er for øvrig samme prinsipp som drev interessen for Holotron-12B fra H Company og NVIDIA tidligere i år – hybrid SSM+attention-arkitekturer er ikke en ny idé, men de er i ferd med å modnes til praktisk brukbare modeller.

Hva er Zamba2-VL faktisk god til?

Zyphra peker på fire bruksområder der modellen har størst verdi: dokumentekstraksjon, fakturabehandling, telling av objekter i bilder (retail-inventar og lignende), og on-device-assistenter der lav latens er kritisk.

Tallene som er lagt frem viser at 2.7B-varianten gjør det særlig bra på to oppgaver. Dokumentforståelse (DocVQA) scorer den 90.9, som er solid for en modell i den størrelsen. Visuell telling (PixMoCount) scorer 82.5 – noe som antyder at modellen håndterer presise oppgaver der du ber den telle elementer i et bilde bedre enn mange konkurrenter.

Der den er svakere er kunnskapsintensivt resonnement. MMMU, som tester akademisk multidisiplinær kunnskap via bilder, scorer 2.7B-varianten 37.7 – klart lavere enn større Transformer-baserte modeller. Det er ikke overraskende for en modell i den parameterstørrelsen, men det er greit å vite om du planlegger å bruke den til faglig analyse.

For de fleste praktiske formål – lese fakturaer, analysere skjemaer, svare på spørsmål om fotografier og dokumenter – er dette mer enn godt nok.

AI-grensesnitt som analyserer dokumenter og fakturaer automatisk — Dokumentekstraksjon og fakturabehandling er blant bruksområdene der Zamba2-VL gjør seg best.

Kan du kjøre Zamba2-VL lokalt på vanlig hardware?

Teknisk sett ja – men med en viktig forutsetning. Modellen krever en CUDA-kompatibel GPU, og Zyphra har foreløpig ikke laget en GGUF-versjon for Ollama. Det betyr at du trenger å bruke deres egen tilpassede transformers-fork og optimaliserte kjerner for å kjøre modellen.

Det er ikke en stor hindring hvis du er komfortabel med å sette opp Python-miljøer og installere avhengigheter fra GitHub, men det er ikke like enkelt som å kjøre ollama pull og sette i gang. Forhåpentlig vil det komme GGUF-konverteringer fra community-en etterhvert, slik det gjerne gjør med populære Apache 2.0-modeller.

Størrelsene passer godt til vanlig forbrukerhardware:

1.2B: Kjører på det meste – selv eldre GPUer med 6-8 GB VRAM
2.7B: Passer godt til GPUer med 8-12 GB VRAM
7B: Trenger 16+ GB VRAM komfortabelt, 24 GB VRAM for full ytelse uten kvantisering

Apache 2.0-lisensen er den beste du kan få for praktisk bruk – det betyr at du kan bruke modellen kommersielt, integrere den i produkter og tilpasse den fritt uten å bekymre deg for lisensrestriksjoner. Det skiller Zamba2-VL fra en del konkurrenter som har mer restriktive vilkår.

Hvordan henger Mamba2-arkitekturen sammen med andre VLM-er?

Landscape-bildet for open source vision-language-modeller er blitt interessant. Du har de store Transformer-baserte modellene som Qwen2.5-VL og Gemma 4 som setter standarden for ren nøyaktighet – og Gemma 4 12B er allerede gratis tilgjengelig multimodalt. Så har du VL-JEPA fra Meta som tar en helt annen arkitekturell tilnærming ved å predikere mening fremfor tokens.

Zamba2-VL passer inn som et tredje spor: hybrid SSM/Transformer som optimaliserer for lav latens og effektivitet på kortere kontekster. Det er ikke den modellen du bruker når du vil presse ut maksimal nøyaktighet på vanskelige akademiske spørsmål. Det er modellen du bruker når du vil ha rask, pålitelig dokumentbehandling og bildeanalyse som faktisk føles responsiv – spesielt på lokal hardware uten datacenter-GPU-er.

En parallell er Holotron-12B-tilnærmingen: SSM-hybridene vinner ikke alle benchmarks, men de vinner på det som faktisk avgjør brukeropplevelsen i produksjon – throughput og latens. Den samme logikken gjelder her, bare for multimodale oppgaver.

Ofte stilte spørsmål

Er Zamba2-VL gratis å bruke kommersielt?

Ja. Modellen er lisensiert under Apache 2.0, som betyr at du kan bruke den kommersielt, bygge produkter med den og tilpasse den fritt. Det er ingen bruksavgifter eller lisensrestriksjoner utover det Apache 2.0 selv krever (bevaring av opphavsrettsnotat).

Trenger jeg spesiell programvare for å kjøre Zamba2-VL?

Ja, foreløpig. Modellen krever Zyphras egentilpassede transformers-fork og optimaliserte CUDA-kjerner. Den er ikke tilgjengelig som GGUF for Ollama ennå, men modellfilene ligger åpent på Hugging Face og community-konverteringer kan komme etterhvert.

Hva er forskjellen på Zamba2-VL og en vanlig Transformer VLM?

Kjernen er Mamba2 state-space-lag i stedet for full attention overalt. Det gir lineær i stedet for kvadratisk skalering med kontekstlengde – og det betyr vesentlig lavere time-to-first-token, særlig på lange dokumenter. Avveiningen er at den er svakere på kunnskapsintensivt resonnement.

Hvilken Zamba2-VL-størrelse bør jeg velge?

For de fleste praktiske oppgaver (dokumentekstraksjon, fakturabehandling, bildeanalyse) er 2.7B et godt utgangspunkt – den har de beste tallene på dokumentforståelse i serien. 7B gir bedre generell ytelse men krever mer VRAM. 1.2B er nyttig for edge-enheter og svak hardware.