lokal LLM

Jan Sverre jobber i hjemmelaben om natten med llama.cpp og Qwen 3.6 27B MTP på RTX 3090

llama.cpp b9200 + Qwen 3.6 27B MTP – slik får du Hermes Agent til å fly på RTX 3090

llama.cpp b9200 fikser MTP memory traffic overhead. Med riktig konfig på Qwen 3.6 27B mtp doblet draft acceptance rate for Hermes Agent på RTX 3090.

18. mai 2026
102 visninger
5 minutter lesetid

Jan Sverre sitter i et hjemmelaboratorium omgitt av GPU-er og benchmarkgrafer på skjermen

RTX 5090 og lokal LLM – hva skjer med ytelse når du skrur ned strømmen?

Detaljert benchmark av RTX 5090 ved ulike strømnivåer: prompt parsing, token-generering og strøm-effektivitet for lokal LLM-kjøring. Hvor er sweet spot?

14. mai 2026
141 visninger
5 minutter lesetid

Jan Sverre studerer distribuert AI-inferens med to maskiner koblet via nettverk på hjemmekontoret

LARQL – kjør Gemma 4 26B på to billige maskiner med decoupled attention

LARQL er et open source Rust-prosjekt som lar deg kjøre Gemma 4 26B spredt over to billige maskiner ved å koble attention-mekanismen fra modellvektene. Distribuert lokal AI-inferens uten dyr GPU-rigg – her er hva det betyr i praksis.

6. mai 2026
138 visninger
4 minutter lesetid

Mann i hettegenser studerer ytelsessammenligning mellom Ollama og llama.cpp på terminal-skjerm i mørkt hjemmekontor

Trenger lokal LLM-økosystemet Ollama? Kanskje ikke

Ollama er populært, men er det det beste verktøyet for lokal AI-kjøring? llama.cpp er 1,8x raskere, og alternativer som LM Studio, Jan og ramalama er modnet. Her er hva debatten handler om.

16. april 2026
211 visninger
4 minutter lesetid

Jan Sverre studerer benchmark-resultater for Qwen3.5 122B lokal LLM på M5 Max terminal

Qwen3.5 122B – fortsatt den beste lokale LLM-en i 2026

Ferske benchmarks på M5 Max 128GB bekrefter at Qwen3.5 122B fortsatt er toppen av bunken for lokale LLM-er. Her er tallene, arkitekturen og hvordan du kommer i gang.