Gemma-4-31B-it-DFlash er en ny variant av Googles Gemma 4 31B-modell, utgitt av Z Lab på Hugging Face. Den skiller seg fra den offisielle modellen ved å bruke DFlash – en teknikk for spekulativ dekoding som ifølge tidlige målinger kan gi opptil 8x raskere inferens på tett-oppmerksomhetsmodeller som Gemma.

Bakgrunnen er interessant: Google slapp Gemma 4 i april 2026 med Apache 2.0-lisens, men holdt Multi-Token Prediction (MTP) låst bak sitt eget LiteRT-format. Det åpne miljøet, representert ved Z Lab og ggml-fellesskapet, svarte kjapt med å bygge sin egen løsning. DFlash er den løsningen.

Pr. nå er modellen tilgjengelig som safetensors på Hugging Face, men for å kjøre den lokalt via llama.cpp og Ollama må man vente på at PR #22105 i llama.cpp blir merget. Den er foreløpig i draft-status med 22 commits og venter på godkjenning fra maintainers.

Hva er DFlash og hvorfor er det spennende?

DFlash er en variant av spekulativ dekoding. I stedet for at modellen genererer ett token om gangen, genererer en «draft model» et helt blokk med kandidattokens i én forward pass – og en større «verifier model» godkjenner eller forkaster dem i bulk.

Resultatet er langt færre roundtrips gjennom de tunge matrisemultiplikasjonene som dominerer inferenstiden. På NVIDIA L40S har det blitt målt opptil 8x raskere generering sammenlignet med standard autoregressiv dekoding – men det gjelder primært tett oppmerksomhetsmodeller. MoE-modeller (Mixture of Experts) som DeepSeek gir ikke like dramatiske gevinster.

Gemma 4 31B er en tett modell, så forutsetningene for gevinst er gode. Det passer at akkurat denne modellarkitekturen er den første som får DFlash-behandlingen fra Z Lab.

Jeg har skrevet mer om teknologien bak i guiden min til spekulativ dekoding og MTP – anbefaler å lese den hvis begrepene er nye.

Hvordan skiller DFlash seg fra MTP?

MTP (Multi-Token Prediction) og DFlash løser det samme grunnproblemet – langsom token-for-token generering – men på litt forskjellige måter.

MTP er innebygd i selve modellarkitekturen under trening. Modellen læres opp til å forutsi flere tokens fremover, og inferensmotoren kan utnytte dette direkte. Det krever at modellen eksporteres med de riktige hodene intakt, noe Google unnlot å gjøre for de vanlige Gemma 4-formatene ifølge min tidligere artikkel om MTP som Google fjernet fra Gemma 4.

DFlash er en ekstern tilnærming. Den trenger ikke at modellen er trent med spesielle MTP-hoder. I stedet brukes en separat draft-modell som raskt foreslår kandidater, mens Gemma 4 31B fungerer som verifiserer. Arkitekturen er løsere koblet og kan i prinsippet kombineres med nesten hvilken som helst grunnmodell.

Det betyr at DFlash-tilnærmingen er mer fleksibel – og kanskje mer realistisk for folk som vil bruke Gemma 4 lokalt i dag, uten å vente på at Google eventuelt åpner MTP.

Infografikk som viser hvordan DFlash spekulativ dekoding fungerer med utkast-modell og verifiserer for 8x raskere inferens
DFlash bruker en liten utkast-modell til å foreslå tokens i bulk, mens Gemma 4 31B verifiserer dem – resultatet er opptil 8x raskere generering.

Hva er status for llama.cpp-støtten?

Her er den viktigste praksisen for deg som vil teste dette: du kan ikke bruke gemma-4-31B-it-DFlash med llama.cpp ennå.

PR #22105 som legger til DFlash-støtte i llama.cpp er under aktiv utvikling med 22 commits, men venter fortsatt på review og merge fra maintainers i ggml-org. Arbeidet bygger på EAGLE3-støtte fra en tidligere PR (#18039), og det er rapportert noen utfordringer knyttet til Gemma 4s bruk av ikke-kausal oppmerksomhet.

Frem til PRen er merget er alternativene begrenset. Du kan laste ned safetensors-filene fra z-lab/gemma-4-31B-it-DFlash på Hugging Face og kjøre dem med transformers-biblioteket, men da uten DFlash-akselerasjonen. For dem som bruker Ollama til lokal kjøring er situasjonen den samme – Ollama er avhengig av llama.cpp under panseret.

Verdt å følge med på: både llama.cpp og Ollama beveger seg raskt. Basert på aktivitetsnivået i PR-en ser dette ut til å komme i løpet av de neste dagene eller ukene.

Hvem er Z Lab og hva er bakgrunnen deres?

Z Lab er et forskningsmiljø som jobber med effektive inferensteknikker for åpne modeller. DFlash-arbeidet deres er publisert offentlig og koden er tilgjengelig, noe som er i god ånd med det åpne AI-fellesskapet som Gemma 4 selv tilhører.

Det er litt av et mønster i open source AI-fellesskapet: der en stor aktør som Google begrenser en funksjon (MTP i LiteRT), dukker det opp en tredjepartsløsning fra fellesskapet som omgår begrensningen på en annen måte. Vi så det med DeepSeek vs OpenAI, og nå ser vi det her med Z Lab og DFlash.

Den første Gemma 4-modellen med Apache 2.0 ble et startpunkt for mange eksperimenter. Jeg dekket lanseringen i artikkelen om Gemma 4 og Apache 2.0. Det er noe befriende med en lisens som faktisk tillater folk å bygge videre uten juridisk hodepine.

Open source-fellesskapet bidrar med DFlash llama.cpp og GGUF-brikker til Gemma 4-modellen
Z Lab og ggml-fellesskapet bygger der Google begrenset – DFlash-støtte i llama.cpp er et typisk eksempel på åpen kildekode i praksis.

Hva betyr dette i praksis for deg som bruker lokale modeller?

Hvis du allerede kjører tunge lokale modeller og leter etter måter å presse mer ytelse ut av eksisterende hardware, er DFlash definitivt noe å følge med på.

En 8x hastighetsøkning er ikke en liten ting. Gemma 4 31B er en kompetent modell – 85,2% på MMLU Pro og et kontekstvindu på 256 000 tokens. Kombinert med DFlash-akselerasjon kan den bli langt mer praktisk på hardware som ikke er toppspesifisert.

For de fleste vil det praktiske steget være å vente til llama.cpp-PRen er merget, og deretter hente en GGUF-quantisert versjon via Ollama. Det er sannsynligvis en uke eller to unna, kanskje kortere.

Om du er nysgjerrig på Gemma 4-familien generelt kan du se mer om de ulike variantene – inkludert 2B, 9B og MoE-utgavene – i guiden til Gemma 4. Og hvis spekulativ dekoding som konsept er nytt: les forklaringen av MTP og speculative decoding – det gir god kontekst for hva DFlash prøver å gjøre.

Gemma-4-31B-it-DFlash er ikke ferdig ennå, men det er riktig vei. Åpne modeller, åpne teknikker, og et fellesskap som ikke venter på at Google skal fikse det de holdt tilbake.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

Meld deg på nyhetsbrevet

Få oppdateringer om AI nyhetene rett i inboxen!

Du liker kanskje denne også
Jan Sverre med headphones og lydmikser i boardroom-møte med forvirrede executives

Suno AI Copyright 2026 – Opphavsrett og Rettigheter for AI-Musikk

Kan du tjene penger på Suno-musikk? Her er en praktisk gjennomgang av rettigheter, risiko og hva du bør avklare før publisering.
Jan Sverre tester GPT-5.2 ved en transparent OpenAI GPT-skjerm

GPT-5.2: Jeg testet OpenAIs nyeste modell – her er hva som faktisk fungerer

GPT-5.2 er ute med tre versjoner. Jeg har testet thinking-modellen, sammenlignet med 5.1, og funnet ut hva som faktisk er bedre. Her er mine erfaringer.
Jan Sverre styrer et digitalt kontrollpanel omgitt av Claude AI-symboler og glødende lysstriper i et mørkt rom

Claude AI – pris, funksjoner og norsk guide (2026)

Alt om Claude AI i 2026 – priser i norske kroner, Claude Pro vs Max, Claude Code, og ærlig sammenligning med ChatGPT. Komplett norsk guide fra en som bruker Claude daglig.
Jan Sverre profesjonelt fotograf-kvalitet portrett AI-generert bildegenerering

Google NotebookLM

Google NotebookLM er en AI-assistent som gjør dokumenter om til interaktive samtaler, studieguidere og podcasts på norsk. Nå drevet av Gemini 3 Pro med nye funksjoner som infographics, slide decks og Deep Research. Komplett guide til gratis vs. Plus-versjon.