Qwen3.6-27B i NVFP4 - NVIDIA kvantiserer Alibabas modell for Hopper og Blackwell

Innhold Vis

NVIDIA har kvantisert Qwen3.6-27B til sitt eget NVFP4-format og lagt den ut på HuggingFace. Modellen heter nvidia/Qwen3.6-27B-NVFP4 og er klar for vLLM-kjøring på Hopper- og Blackwell-arkitektur. Det er ikke en ny modell – det er Alibabas Qwen3.6-27B pakket om i et format som lar deg presse mer ytelse ut av serverklasse NVIDIA-kort.

Qwen3.6-27B er Alibabas åpne 27-milliarders-parametersmodell med innebygd tenking og opp til 262 000 tokens kontekst. Det er en modell mange har kjørt lokalt allerede – blant annet i GGUF-format via llama.cpp. Det NVIDIA gjør her er å ta samme base og legge den inn i NVFP4, selskapets eget 4-bits kvantiseringsformat som er skreddersydd for Tensor Cores på nyere GPU-arkitekturer.

Spørsmålet er om det betyr noe i praksis, og for hvem.

Hva er NVFP4 – og hvordan skiller det seg fra GGUF og FP8?

NVFP4 er NVIDIAs proprietære 4-bits datatype. I motsetning til GGUF – som er llama.cpp sitt pakkeformat og fungerer på en bred portefølje av hardware – er NVFP4 bygget eksklusivt for NVIDIAs nyeste arkitekturer. Det betyr Hopper (H100, H200) og Blackwell (B100, B200, GB300 og lignende). Har du ikke et av disse kortene, er denne kvantiseringen ikke relevant for deg.

Selve komprimeringen reduserer minnekravet med omtrent 2,5 ganger sammenlignet med BF16. En 27B-modell i BF16 bruker rundt 54 GB VRAM – med NVFP4 kommer du ned mot 20-22 GB, noe som gjør det mulig å kjøre den på et enkelt H100 80GB med god margin til kontekst. Sammenlignet med FP8 – en annen server-orientert kvantisering – er ytelsesforskjellen liten. NVIDIA oppgir at NVFP4 treffer omtrent det samme på de benchmarkene de har testet, med marginale avvik.

Det viktigste praktiske skillet mot GGUF er at NVFP4 er optimalisert for batch-inferens via vLLM, ikke enkeltbruker-kjøring via llama.cpp. Det er to forskjellige bruksscenarier.

Visualisering av NVFP4-kvantisering sammenlignet med FP8 og GGUF-format for store språkmodeller — NVFP4 komprimerer modellvekter til 4 bits og reduserer VRAM-kravet med 2,5x sammenlignet med BF16 – men krever Hopper- eller Blackwell-arkitektur.

Hvem er dette egentlig for?

Denne kvantiseringen er ikke ment for hobbyister med en RTX 4090 eller to stykk 3090 i bridgeoppsett. Den er ment for folk som kjører Hopper- eller Blackwell-servere – enten direkte, via skyleverandør, eller via en dedikert inferensserver. Det er utviklere som setter opp AI-agentsystemer, RAG-pipelines eller chatbots i produksjonsmiljøer der ytelse per GPU-time teller.

Apache 2.0-lisensen betyr at du kan bruke den kommersielt uten å betale noe til verken NVIDIA eller Alibaba. Det er bra. Men tilgangen til hardware er en annen sak – og her er det en tydelig målgruppe.

Har du en RTX 4090 hjemme og vil kjøre Qwen3.6-27B lokalt, er det fortsatt GGUF via llama.cpp som gjelder. Det finnes Q4_K_M- og Q5_K_M-varianter som passer fint til 24 GB VRAM med litt pusterom. Det er faktisk vist at to RTX 2080 Ti i dual-GPU-oppsett klarer 38 tokens per sekund med Qwen3.6-27B – og det er uten noen NVFP4-magi.

Slik kjører du modellen med vLLM

NVIDIA har gjort det enkelt å komme i gang. Du trenger Docker-imaget vllm/vllm-openai:nightly og én kommando:

vllm serve nvidia/Qwen3.6-27B-NVFP4 --port 8000 --quantization modelopt --max-model-len 262144 --reasoning-parser qwen3

Det er verdt å merke seg --max-model-len 262144 – det er 262 144 tokens kontekst, altså godt over 200 000 tokens. Det er mye. Og --reasoning-parser qwen3 aktiverer tenke-funksjonaliteten i modellen, slik at du kan sende den oppgaver som krever steg-for-steg-resonnering og få strukturert output tilbake. Det er standard Qwen3-oppførsel, men det er fint at NVIDIA har sørget for at parseren fungerer riktig med vLLM.

Testmaskinvaren NVIDIA brukte var GB300, som er en Blackwell-variant for datasentre. Resultater på H100 vil variere noe, men arkitekturen støttes eksplisitt.

vLLM serverinfrastruktur med NVIDIA Blackwell GPU-er for AI-inferens i produksjon — vLLM og Docker-imaget `vllm/vllm-openai:nightly` er kjøreplattformen for NVFP4-modellene – testet på GB300 Blackwell-hardware.

NVIDIAs rolle i det åpne modell-økosystemet

Det er interessant å se NVIDIA ta en aktiv rolle i å pakke om andre selskapers modeller. De har gjort dette med flere åpne modeller nå – ikke bare Qwen, men også Llama og Mistral-varianter – og mønsteret er det samme: ta en god åpen modell, kvantiser den til NVFP4, og server den via vLLM. Det er en smart posisjonering. De selger jo GPU-ene, og jo enklere det er å kjøre gode modeller på Hopper og Blackwell, jo bedre for salget.

NVIDIA har for øvrig også laget sin egen modell-familie – Nemotron – som bygger på den samme vLLM-infrastrukturen og NVFP4-formatet. Jeg har skrevet om NemoClaw og Nemotron 9B tidligere, der NVIDIA viser hvordan de tenker rundt lokal inferens og sikkerhetsisolasjon oppå OpenClaw-rammeverket.

At de nå kvantiserer Qwen3.6-27B – en kinesisk modell fra Alibaba – er ikke uten ironi, gitt at Alibaba er et selskap som opererer under kinesisk lov. Men NVIDIA ser tydelig på det som et teknisk spørsmål, ikke et geopolitisk. Modellen er åpen, lisensen er ren, og kvantiseringen er deres eget bidrag. Den er tilgjengelig på HuggingFace nå.

Ofte stilte spørsmål

Kan jeg kjøre nvidia/Qwen3.6-27B-NVFP4 på en RTX 4090?

Nei. NVFP4-formatet er eksklusivt for Hopper- (H100, H200) og Blackwell-arkitektur (B100, B200, GB300). RTX 4090 er Ada Lovelace og støttes ikke. For RTX 4090 er GGUF-varianter via llama.cpp riktig vei å gå.

Hva er forskjellen på NVFP4 og vanlig GGUF-kvantisering?

GGUF er llama.cpp sitt pakkeformat og fungerer på bred hardware inkludert CPU og vanlige forbruker-GPU-er. NVFP4 er NVIDIAs eget 4-bits format optimalisert for batch-inferens via vLLM på serverklasse GPU-er. Ytelsen er bedre ved høy last, men hardware-kravet er mye strengere.

Er modellen gratis å bruke kommersielt?

Ja. Både Qwen3.6-27B og NVIDIAs NVFP4-versjon er lisensiert under Apache 2.0, som tillater kommersiell bruk uten royalties. Du trenger imidlertid tilgang til Hopper- eller Blackwell-hardware for å kjøre den.

Hva er kontekstlengden på denne modellen?

Opp til 262 144 tokens – over 200 000 tokens kontekst. Det settes med --max-model-len 262144 i vLLM-kommandoen. Merk at lengre kontekst krever mer VRAM, så du trenger god margin på GPU-en.