Jan Sverre ser på en iPhone med ny Siri-grensesnitt på WWDC 2026

Hva er den nye Siri AI – og er det egentlig Apple som lager den?

Apple viste frem ny Siri på WWDC 2026 – drevet av Googles Gemini. Her er hva som faktisk er nytt, og hva som gjenstår å se.
Jan Sverre med laptop der AI forstår bilder, lyd og tekst lokalt

Gemma 4 12B – nå kan du kjøre multimodal AI gratis på din egen laptop

Gemma 4 12B er Googles nye open weights-modell som forstår bilder, lyd og tekst – og kjører på en vanlig 16GB laptop. Apache 2.0, gratis, ingen skytjeneste.
Jan Sverre undersøker MiniCPM5-1B som kjører lokalt på en liten ARM-enhet

MiniCPM5-1B – reasoning og tool use på 1 milliard parametere

MiniCPM5-1B er en 1B-modell med hybrid reasoning, 131 000 tokens kontekst og tool use – og kjører lokalt via Ollama. Her er hva den faktisk kan.
Jan Sverre ser på en stor lysende Apple Silicon-chip med nevrale nettverksforbindelser - Command A+ 218B MoE

Command A+ 218B – Coheres kraftigste modell kjører nå på Apple Silicon

Command A+ (218B MoE, 25B aktive) kjører nå på Apple Silicon via MLX. Apache 2.0, 128K kontekst, cohere2_moe-implementasjon. Her er hva du trenger å vite.
Jan Sverre undersøker benchmark-resultater fra M5 Max, DGX Spark, Strix Halo og RTX Pro 6000 side om side

M5 Max vs DGX Spark vs Strix Halo vs RTX Pro 6000 – hvem vinner for lokal AI?

Tre dagers parallell benchmark-kjøring av M5 Max, DGX Spark, AMD Strix Halo og RTX Pro 6000. Her er tallene – og de er ikke overraskende når du forstår minnebåndbredde.
Jan Sverre Bauge sitter med MacBook Pro og ser på terminalen som viser MTP-ytelse på 34 tokens per sekund

MTP + TurboQuant på LLaMA.cpp – Qwen 27B til 34 tokens per sekund på MacBook

Multi-Token Prediction kombinert med TurboQuant gir Qwen 27B 34 tokens per sekund på MacBook Pro M5 Max – en økning på 40% uten ekstra kostnad.
Jan Sverre fascinert over MTPLX ytelsesøkning på MacBook Pro M5 Max - 2,24 ganger raskere MTP-inferens

MTPLX – 2,24 ganger raskere MTP-inferens for Apple Silicon

MTPLX er en ny MTP-inferensmotor for Apple Silicon som gir 2,24 ganger raskere token-generering uten ekstra minne. Qwen3.6-27B gikk fra 28 til 63 tokens per sekund på MacBook Pro M5 Max.
Jan Sverre studerer benchmark-resultater for Qwen3.5 122B lokal LLM på M5 Max terminal

Qwen3.5 122B – fortsatt den beste lokale LLM-en i 2026

Ferske benchmarks på M5 Max 128GB bekrefter at Qwen3.5 122B fortsatt er toppen av bunken for lokale LLM-er. Her er tallene, arkitekturen og hvordan du kommer i gang.