Minnebåndbredde avgjør alt. En ny tredagers benchmark-test der M5 Max, DGX Spark, AMD Strix Halo og RTX Pro 6000 kjørte parallelt med standardiserte tester bekrefter det som egentlig er åpenbart når du ser på tallelinjene: det er ikke compute som begrenser lokal LLM-inferens, det er minne. RTX Pro 6000 har 1 800 GB/s. M5 Max har 546 GB/s. DGX Spark og Strix Halo deler omtrent 273 GB/s. Resultatet? Nesten eksakt proporsjonalt med båndbredden.

Det er ikke dramatisk, og det er ikke en overraskelse – men noen ganger er det greit å se tall fra virkeligheten i stedet for datablad. La oss gå gjennom hva benchmarkene faktisk viser, og hva du bør velge basert på hva du faktisk trenger.

Testen er gjort under kontrollerte forhold med god strømtilgang og kjøling, og alt er publisert åpent i et GitHub-repo. Det er nettopp den typen grundig, åpen testing som gjør at du faktisk kan stole på tallene.

Hva er egentlig minnebåndbredde, og hvorfor styrer den lokal LLM-hastighet?

Når en språkmodell genererer tokens, laster den kontinuerlig modellvektene fra minnet inn i prosessoren. Jo raskere minnet kan sende data, jo raskere blir token-genereringen. Det er ikke prosessorens regnekraft som er flaskehalsen – det er datatransport. Dette kalles at inferens er memory-bound, og det er grunnen til at båndbredde-tallene nesten direkte predikerer ytelse ved token-generering.

Å forstå dette ene prinsippet gjør at du umiddelbart kan rangere hardware uten å vente på benchmarks: mer GB/s = raskere tokens per sekund for lokale modeller. Tall fra benchmarkene bekrefter dette: forholdet mellom RTX Pro 6000s 1 800 GB/s og DGX Sparks 273 GB/s er omtrent 6,6x, og token-genereringen på 120B-modeller er nesten identisk proporsjonalt raskere på RTX-kortet.

Teknisk sammenligning av minnebåndbredde for M5 Max, DGX Spark, Strix Halo og RTX Pro 6000
RTX Pro 6000 på 1 800 GB/s er 6,6x raskere enn DGX Spark og Strix Halo på 273 GB/s

Hva leverer M5 Max i praksis?

M5 Max med 128 GB unified memory og 546 GB/s båndbredde er den stille overraskelsesvinneren for mange brukstilfeller. Den kjører 120B-modeller i Q4-kvantisering til rundt 15-20 tokens per sekund, og på mindre modeller som Qwen3.6-27B kan du komme opp i 65 tokens per sekund med riktige optimaliseringer – MTPLX gir 2,24x speedup på nettopp den modellen.

Det som gjør M5 Max spesielt interessant er strømforbruket: rundt 40 watt under typisk inferensbelastning. Det er ikke en feil. RTX Pro 6000 trekker 600 watt, og en komplett arbeidsstasjon med det kortet kan komme opp i langt mer. M5 Max er ikke bare raskere per watt, den er raskere per krone på strøm over tid for de fleste som jobber med modeller daglig hjemme eller på kontor.

Ulempen er at du er låst til Apple-økosystemet og MLX som framework. Har du kode som er avhengig av CUDA, hjelper ikke 546 GB/s deg det minste.

Er DGX Spark verdt pengene?

DGX Spark startet på 4 000 dollar, gikk opp til 4 699 dollar i februar 2026 på grunn av minneknapphet, og sitter nå et sted rundt 37 000-40 000 kroner i Norge. For det får du Blackwell-arkitektur, 128 GB unified memory og fullt CUDA-støtte – alt i en boks på størrelse med en Mac mini.

Men minnebåndbredden er bare 273 GB/s. Det er identisk med AMD Strix Halo, til en lavere pris. I benchmark-testen genererte DGX Spark rundt 38 tokens per sekund på GPT-OSS 120B (MXFP4-kvantisering), mens det samme kortet leverer imponerende 1 723 tokens per sekund på prompt processing. Det sier alt om hva Spark faktisk er: en rask prefill-maskin, ikke en rask genererings-maskin.

Spark er et riktig valg hvis du er CUDA-utvikler som trenger et lokalt dev-miljø som matchers mot sky-produksjon, eller hvis du kjører batch-jobber der prompt processing er mer kritisk enn interaktiv token-generering. Som daglig driver for samtaler med store modeller? Da er den overpriset.

Hva med AMD Strix Halo?

AMD Strix Halo (Ryzen AI MAX+ 395) byr på 128 GB LPDDR5x-8533 med rundt 256-273 GB/s båndbredde – nesten identisk med DGX Spark på papiret. I benchmark-testen kom Strix Halo inn på 34 tokens per sekund på GPT-OSS 120B mot Sparks 38, altså meget likt. Men Strix Halo er et laptop- og mini-PC-chip, og med Luce DFlash og PFlash kan du presse ut 2,23x raskere decode-hastighet enn uten disse optimaliseringene.

En ROG Flow Z13 eller Minisforum AI MAX er billigere enn en DGX Spark, kjører de samme modellene, og har i praksis samme råbåndbredde. Det er vanskelig å forsvare Spark-prisen hvis du ikke spesifikt trenger CUDA-utviklingsmiljøet.

RTX Pro 6000 Blackwell GPU installert i workstation - 1 800 GB/s minnebåndbredde for lokal AI-inferens
RTX Pro 6000 Blackwell leverer 1 800 GB/s og 240+ tokens per sekund på 120B-modeller

Hva leverer RTX Pro 6000 Blackwell?

RTX Pro 6000 Blackwell er der samtalen egentlig slutter for de som vil ha rå hastighet. Med 96 GB GDDR7 og 1 800 GB/s båndbredde er det 6,6 ganger mer datatransport enn DGX Spark. Det reflekteres nesten perfekt i token-generering: 124 tokens per sekund på 120B-modeller mot Sparks 38, og over 240 tokens per sekund på 70B-modeller i Q4.

Tre RTX 3090-er koblet i NVLink genererte i samme test 124 tokens per sekund på GPT-OSS 120B – altså identisk med ett enkelt RTX Pro 6000 Blackwell-kort. Det sier noe om hva Blackwell-arkitekturen faktisk leverer per kort. Prisen er deretter: selve kortet koster rundt 90 000-100 000 kroner, og en komplett arbeidsstasjon er priset vesentlig høyere.

Det er ikke for hjemmebruk. Det er for de som driver med inferens som arbeid, ikke som hobby. For de fleste som leser dette er M5 Max eller Strix Halo-enheter langt mer relevante. Men det er greit å vite hva taket ser ut som, og RTX Pro 6000 er det.

Direkte sammenligning – minnebåndbredde og ytelse

Tallene er hentet fra benchmarktesten der alle systemene kjørte GPT-OSS 120B parallelt under standardiserte forhold.

Minnebåndbredde:

  • RTX Pro 6000 Blackwell: 1 800 GB/s
  • M5 Max 128GB: 546 GB/s
  • DGX Spark: 273 GB/s
  • AMD Strix Halo: 256-273 GB/s

Token-generering på GPT-OSS 120B (tg32, MXFP4):

  • RTX Pro 6000: 124+ tokens per sekund
  • M5 Max: 15-38 tokens per sekund (avhengig av kvantisering)
  • DGX Spark: 38 tokens per sekund
  • AMD Strix Halo: 34 tokens per sekund

Prompt processing på GPT-OSS 120B (pp2048, MXFP4):

  • DGX Spark: 1 723 tokens per sekund – suverent raskest på prefill
  • M5 Max: 863 tokens per sekund
  • AMD Strix Halo: 339 tokens per sekund

DGX Spark er altså prompt-prosesseringsvinner – omtrent dobbelt så rask som M5 Max her. Men for interaktiv bruk der token-generering er det du venter på, er den ikke verdt premiumprisen.

Hvilken bør du velge?

Her er det enkle svaret: det kommer an på hva du faktisk gjør.

Vil du ha den beste kombinasjonen av pris, ytelse, strømsparing og portabilitet for å kjøre 70-120B modeller daglig? M5 Max 128GB er vinneren. Den er stillegående, trekker lite strøm, og med optimaliseringer som riktige kvantiseringsvalg kan du kjøre imponerende modeller komfortabelt.

Er du CUDA-utvikler som trenger et lokalt miljø som matcher sky-oppsett? DGX Spark gir deg Blackwell + CUDA i én boks. Det er det eneste scenariet der premiumprisen over Strix Halo er forsvarlig.

Vil du ha maksimal tokens-per-sekund og kan akseptere høy strømpris og høy innkjøpskostnad? RTX Pro 6000 er veien, men da snakker vi seriøs investering. Du bør ha klare forretningsgrunner for det.

Er du hobbyist eller entusiast på budsjett? En Strix Halo-enhet (Minisforum, ASUS ROG) gir deg omtrent samme ytelse som DGX Spark til lavere pris, med Linux og AMD ROCm som tillegg. Ikke like plug-and-play som CUDA, men tallene er nesten identiske. Les gjerne guiden om DFlash og PFlash for å få mest mulig ut av Strix Halo.

Det som bekrefter all fornuftig teori er at benchmarktallene er nesten nøyaktig proporsjonale med råbåndbredde-tallene. Lokal LLM-inferens er minnebegrenset, og det vil den forbli helt til arkitekturen endrer seg fundamentalt. Når du ser et nytt produkt annonsert, er det første spørsmålet alltid det samme: hvor mange GB/s?

Mer om Apple Silicon og lokal AI: MTPLX gir 2,24x raskere inferens på M5 Max, og MTP + TurboQuant tar Qwen 27B til 34 tokens per sekund på MacBook.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

Meld deg på nyhetsbrevet

Få oppdateringer om AI nyhetene rett i inboxen!

Du liker kanskje denne også
Jan Sverre arbeider med Suno AI musikk-generering på datamaskinen, kreativt workspace med hodetelefoner

Suno AI – 150 Låter Testet: Hva Funker og Hva Er Bortkastet Tid

Jeg testet 150 Suno-låter og fant tydelige mønstre. Her er hva som faktisk gir kvalitet, og hva som bare kaster bort tid.
Jan Sverre med headphones og lydmikser i boardroom-møte med forvirrede executives

Suno AI Copyright 2026 – Opphavsrett og Rettigheter for AI-Musikk

Kan du tjene penger på Suno-musikk? Her er en praktisk gjennomgang av rettigheter, risiko og hva du bør avklare før publisering.
Jan Sverre styrer et digitalt kontrollpanel omgitt av Claude AI-symboler og glødende lysstriper i et mørkt rom

Claude AI – pris, funksjoner og norsk guide (2026)

Alt om Claude AI i 2026 – priser i norske kroner, Claude Pro vs Max, Claude Code, og ærlig sammenligning med ChatGPT. Komplett norsk guide fra en som bruker Claude daglig.
Jan Sverre riding a dinosaur in safari outfit, photorealistic AI-generated image demonstrating Nano Banana Pro capabilities

Jeg testet Nano Banana Pro: AI som faktisk skriver norsk i bilder

Endelig! En AI som kan generere norsk tekst i bilder med 94% nøyaktighet. Jeg testet Nano Banana Pro grundig – her er resultatene.