DiffusionGemma er raskere enn Gemma 4 – men ikke klar for produksjon

Innhold Vis

Google har sluppet DiffusionGemma, en 26 milliarder parameter open source-modell som genererer tekst på en helt annen måte enn det vi er vant til. I stedet for å skrive ett ord av gangen, skriver den hele blokker parallelt – og det gir en merkbar hastighetsforbedring lokalt, særlig på GPU-er du allerede eier.

Ideen bak er ikke ny. Mercury 2 var den første reasoning diffusion LLM som viste at text diffusion kan konkurrere med tradisjonelle modeller. Men det er første gang Google bringer denne tilnærmingen inn i Gemma-familien, med fri lisens og støtte i etablerte rammeverk.

Spørsmålet er om den faktisk er brukbar i dag – eller om den er mer et teknologisk fremstøt enn et praktisk verktøy. Svaret er litt av begge deler.

Visualisering av text diffusion: tilfeldige tokens som transformeres til sammenhengende tekst parallelt — Text diffusion forbedrer tokens iterativt og parallelt – i motsetning til autoregressive modeller som skriver ett ord av gangen

Hva er text diffusion – og hvorfor er det raskere?

Vanlige språkmodeller som Gemma 4 og GPT-4o bruker autoregressive generering. Det betyr at de skriver ett token av gangen, og hvert nye ord avhenger av alt som er skrevet før. Det er effektivt, men sekvensielt – neste token kan ikke genereres før det forrige er ferdig.

DiffusionGemma gjør det annerledes. Modellen starter med en haug med tilfeldige plassholdertokens, og forbedrer dem iterativt i parallell. Tokens med høy sikkerhet låses tidlig, mens de usikre «re-noises» og forbedres på nytt. Hele blokken behandles samtidig, noe som gjør at GPU-en kan jobbe for fullt hele veien.

Resultatet er opptil 1000 tokens per sekund på en H100, og 700+ på en RTX 5090, ifølge Googles tall. Det er en 4x hastighetsforbedring sammenlignet med standard Gemma 4 ved lokal inferens. Det er ikke uviktig når du kjører lokalt og vil ha raske svar.

Flaskehalsen skifter også: autoregressive modeller bremses av minnebåndbredde, mens DiffusionGemma bremses av beregningskraft. Det betyr at en rask GPU faktisk brukes bedre – du får mer ut av det du allerede har.

Hva er MoE-arkitekturen – og hva betyr 26B-A4B i praksis?

26 milliarder parametere høres tungt ut, men modellen aktiverer bare 3,8 milliarder under inferens. Det er Mixture of Experts (MoE) – en arkitektur der modellen har mange spesialister, men bare kaller inn et knippe per token. Du får bredt grunnlag med lavt minnekrav.

Kvantisert til 4-bit trenger modellen 18 GB VRAM. Det er innenfor rekkevidde for en RTX 3090 eller 4090 med 24 GB, og definitivt håndterbart på nyere hardware. Modellen bygger på Gemma 4-ryggraden (26B-A4B) med et eget diffusjonshode på toppen.

Kontekstvinduet er på 256 000 tokens med støtte for 140+ språk. Det er imponerende for en lokal modell, og gjør den interessant for dokumentanalyse, kodebaser og langkontekst-oppgaver der du vil unngå skytjenester.

Hva er DiffusionGemma best til?

Google peker på noen konkrete bruksområder der rask lokal inferens med akseptabel kvalitet slår tradisjonelle modeller: kodeutfylling, inline-redigering, OCR og dokumentparsing, og agentstyrte arbeidsflyter der mange korte svar genereres i rekkefølge. I alle disse tilfellene betyr lavere latens mer enn absolutt tekstkvalitet.

Det er også interessant for eksperimenter. Modellen er open source under Apache 2.0-lisens, støttet i vLLM, Transformers, MLX og Unsloth. Det er bred dekning fra dag én, og betyr at du kan kjøre den med standard oppsett uten å vente på særtilpasninger.

GPU-kort for lokal AI-inferens - DiffusionGemma trenger 18 GB VRAM kvantisert — DiffusionGemma utnytter GPU-beregningskraft bedre enn autoregressive modeller – flaskehalsen skifter fra minnebåndbredde til compute

Hva er begrensningene?

Google er åpne på det viktigste: DiffusionGemma produserer lavere kvalitet enn standard Gemma 4. For produksjonsoppgaver der du trenger maksimal tekstkvalitet, anbefaler Google selv å bruke autoregressive Gemma 4.

Hastighetsfordelene er størst i lokal, lavbelastnings-inferens – én bruker, én GPU. I skyoppsett med høy QPS-belastning og mange samtidige forespørsler er gevinsten mye mindre. Det er et viktig forbehold: «4x raskere» betyr noe konkret for deg som kjører lokalt, men ikke nødvendigvis for en produksjons-API med mange samtidige brukere.

Modellen er eksplisitt merket som eksperimentell. Det er første versjon av noe nytt, og det vises. Det er ikke et verktøy du setter i produksjon i dag – det er et tidlig signal om hvor text diffusion for LLM-er er på vei.

Hva betyr dette sammenlignet med andre open source-modeller?

DiffusionGemma konkurrerer ikke direkte med IBM Granite 4.1 i 3B, 8B og 30B – Granite er optimalisert for ulike oppgaver og kvalitetsmål. Konkurransen er mer mot andre lokal-inferens-løsninger der hastighet er primærmålet.

Det interessante er at Google nå gjør det Mercury 2 viste var mulig, tilgjengelig på bredt distribuert måte med Apache 2.0. Det betyr at text diffusion-tilnærmingen nå kan testes uten betalingsmurer eller API-køer. Forskningsmiljøene, hobbyistene og produkt-teamene kan alle eksperimentere på egne maskiner.

Når en teknologi som dette kommer inn i et etablert open source-rammeverk med bred støtte, er det vanligvis begynnelsen på raskere modning. Første versjon er sjelden den beste – men den setter standarden for hva som er mulig.

Google har bevist med Gemini-familien at de er i stand til å skalere opp og forbedre modellkvalitet over tid. DiffusionGemma er eksperimentell nå, men arkitekturen er etablert, verktøystøtten er god, og lisensen er fri. Det er et solid utgangspunkt.

Ofte stilte spørsmål

Kan jeg kjøre DiffusionGemma på min egen PC?

Ja, modellen trenger 18 GB VRAM kvantisert til 4-bit – innenfor rekkevidde for en RTX 3090 eller 4090 med 24 GB. Den støttes i Transformers, vLLM, MLX og Unsloth, og er tilgjengelig gratis på Hugging Face under Apache 2.0.

Er DiffusionGemma bedre enn vanlig Gemma 4?

Raskere, ja – opptil 4x på GPU lokalt. Men Google sier selv at tekstkvaliteten er lavere enn standard Gemma 4. Velg DiffusionGemma for lav-latens-oppgaver som kodeutfylling, velg autoregressive Gemma 4 når kvaliteten betyr mest.

Hva er forskjellen på text diffusion og vanlig autoregressive generering?

Autoregressive modeller skriver ett token av gangen, alltid fra venstre til høyre. Text diffusion starter med tilfeldige tokens og forbedrer hele blokker parallelt – noe som gjør at GPU-en kan jobbe mer effektivt. Ulempen er at retting av tidlig feil er vanskeligere.

Er DiffusionGemma klar for produksjon?

Nei – Google merker den eksplisitt som eksperimentell og anbefaler standard Gemma 4 for produksjon der maksimal kvalitet er viktig. DiffusionGemma er et lovende tidlig signal, men ikke et ferdig produksjonsverktøy.