Jan Sverre sammenligner priser på frontier-AI versus lokal AI

Er frontier-AI for dyrt? Slik beregner du om lokal AI lønner seg

Prisen på GPT-5.5 er tredoblet på åtte måneder. Her er regnestykket som avgjør om lokal AI og open source er verdt overgangen for deg.
Jan Sverre ser på ytelsestall fra BeeLlama DFlash på RTX 3090 - 177 tokens per sekund

Slik får du nesten 5x raskere lokal AI på én RTX 3090 – BeeLlama v0.2.0 forklart

BeeLlama v0.2.0 gir opptil 4,9x raskere tekstgenerering med Gemma 4 31B og Qwen3.6 27B på én enkelt RTX 3090 – uten ekstra maskinvare.
Jan Sverre undersøker MiniCPM5-1B som kjører lokalt på en liten ARM-enhet

MiniCPM5-1B – reasoning og tool use på 1 milliard parametere

MiniCPM5-1B er en 1B-modell med hybrid reasoning, 131 000 tokens kontekst og tool use – og kjører lokalt via Ollama. Her er hva den faktisk kan.
Jan Sverre studerer ytelsesdata fra DeepSeek V4 Flash kjørt på fire RTX 2080 Ti-er

DeepSeek V4 Flash lokalt på fire RTX 2080 Ti – 255 tokens per sekund for under 25 000 kr

Noen kjørte DeepSeek V4 Flash lokalt på fire brukte RTX 2080 Ti-er til under 25 000 kr – og fikk 255 prefill tokens per sekund. Her er hva de brukte og hvordan det fungerer.
Jan Sverre utforsker Gemma-4-31B-it-DFlash og spekulativ dekoding med DFlash-teknikken

Gemma-4-31B-it-DFlash – spekulativ dekoding for Googles åpne modell

Gemma-4-31B-it-DFlash er en ny variant av Googles Gemma 4 31B utgitt av Z Lab, med DFlash spekulativ dekoding som kan gi opptil 8x raskere inferens. Llama.cpp-støtte er under utvikling via PR #22105.
Mann i hettegenser studerer ytelsessammenligning mellom Ollama og llama.cpp på terminal-skjerm i mørkt hjemmekontor

Trenger lokal LLM-økosystemet Ollama? Kanskje ikke

Ollama er populært, men er det det beste verktøyet for lokal AI-kjøring? llama.cpp er 1,8x raskere, og alternativer som LM Studio, Jan og ramalama er modnet. Her er hva debatten handler om.
Jan Sverre inspiserer en AI-modellplan der MTP-seksjonen er merket som utilgjengelig og låst til LiteRT

Gemma 4 og MTP – Google fjernet ytelsesboost fra offentlig modell

Google bekreftet via Hugging Face at Multi-Token Prediction er fjernet fra de offentlige Gemma 4-modellene. Den fulle versjonen med MTP finnes bare i LiteRT-formatet – som har 8 000 nedlastninger mot over én million for GGUF og safetensors. DeepSeek og Qwen gjorde det ikke slik.
Jan Sverre holder to kraftige energistrømmer fra øst og vest fra hverandre - symboliserer dragkampen mellom kinesisk og vestlig AI

DeepSeek – den kinesiske AI-utfordreren forklart (2026)

DeepSeek er det kinesiske AI-selskapet som sjokkerte Silicon Valley og senket Nvidia-aksjen 18 % på én dag. Her er alt du trenger å vite om modellene, prisene, sensureringen og personvernproblemene – og hvem som faktisk bør bruke det.
Jan Sverre dirigerer et nettverk av open source AI-modeller som Llama, Qwen og Mistral lokalt på egen maskin

Open source AI – komplett guide (2026)

Alt du trenger å vite om open source AI i 2026: hva open weights faktisk betyr, de beste modellene (Llama, Qwen, Mistral, DeepSeek), verktøy for lokal kjøring, og når open source slår lukkede alternativ.
Jan Sverre klemmer glødende tallblokker sammen som komprimeres fra 16-bit til 4-bit i sci-fi visning av TurboQuant vektkomprimering

TurboQuant for weights – 4-bit vektkomprimering med nær-optimal presisjon

TurboQuant-algoritmen fra Google er blitt tilpasset for modellvekter – ikke bare KV-cache. Resultatet: 4-bit kvantisering med nær-optimal presisjon, 3,2x minnebesparelse, og et 8-bit residuallag som gir null perplexity-tap.