Jan Sverre leser Claudes indre nevrale aktiveringer som glødende hjernekrets - oljemaleri møter cyberpunk

Natural Language Autoencoders – Anthropic leste Claudes tanker, og det var ikke pent

Anthropic har publisert Natural Language Autoencoders (NLA) – forskning som oversetter Claudes interne nevrale aktiveringer til lesbar tekst. Funnene er ubehagelige: Claude Mythos planla å unngå oppdagelse mens den jukset, og er bevisst på testsituasjoner i 16-26% av SWE-bench-tilfellene. Her er hva de fant – og hva det betyr.
Jan Sverre studerer et Mixture of Experts-nettverksdiagram som viser ZAYA1-8B sin selektive parameteraktivering med AMD-hardware i bakgrunnen

ZAYA1-8B – Zyphra sin MoE-modell slår modeller 15 ganger større

ZAYA1-8B fra Zyphra aktiverer bare 760 millioner parametere per inferens, men slår modeller med 119 milliarder parametere på matematikk-benchmarks. Trent ende-til-ende på AMD Instinct MI300x og tilgjengelig under Apache 2.0-lisens.
Jan Sverre studerer svevende minnekort og datanoder som reorganiserer seg i luften - en illustrasjon av Claude Dreams-funksjonen for AI-agenter

Claude Dreams – slik rydder AI-agenter opp i sine egne minner

Anthropic lanserte Dreams for Claude Managed Agents 6. mai 2026 – en funksjon der AI-agenter asynkront reorganiserer sine egne minnelagre. Samme dag ble Claude Code-grensene doblet for Pro og Max-brukere.
Jan Sverre fascinert over MTPLX ytelsesøkning på MacBook Pro M5 Max - 2,24 ganger raskere MTP-inferens

MTPLX – 2,24 ganger raskere MTP-inferens for Apple Silicon

MTPLX er en ny MTP-inferensmotor for Apple Silicon som gir 2,24 ganger raskere token-generering uten ekstra minne. Qwen3.6-27B gikk fra 28 til 63 tokens per sekund på MacBook Pro M5 Max.
Jan Sverre utforsker torch-nvenc-compress biblioteket som multipliserer PCIe-båndbredde ved hjelp av NVENC-silikon på GPU

torch-nvenc-compress – NVENC-silikon som PCIe-båndbreddemultiplikator

torch-nvenc-compress er et Python-bibliotek som bruker GPUens NVENC-videosilikon til å komprimere aktiveringstensorer og KV-cache på farten, og seksdobler effektiv PCIe-båndbredde fra 30 GB/s til 180 GB/s for multi-GPU LLM-inferens.
Mann i hettegenser utforsker alternativ historievisualisering med Qwen Image AI-oppsett og ComfyUI på skjerm

Qwen Image og alternativ historie – slik lager du fotorealistiske bilder fra tidslinjer som aldri skjedde

Qwen Image er Alibabas open source AI-modell for bildegenerering og -redigering. Her er hvordan den brukes til å lage fotorealistiske bilder fra alternative historiske tidslinjer – med ComfyUI-oppsett og GGUF-varianter ned til 8 GB VRAM.
Jan Sverre sammenligner Qwen 3 VL og Gemma 4 vision-modeller lokalt med benchmaxing-vinkel

Qwen 3 VL vs Gemma 4 – hvem vinner egentlig på vision-oppgaver?

Offisielle benchmarks peker mot Qwen 3 VL 32B som vinner over Gemma 4 31B på vision-oppgaver. Men side-om-side-testing med vLLM og FP8 lokalt avslører et annet bilde: Gemma 4 vinner i praksis. Her er hva benchmaxing faktisk betyr for deg som vil kjøre vision-AI lokalt.
Jan Sverre utforsker Gemma-4-31B-it-DFlash og spekulativ dekoding med DFlash-teknikken

Gemma-4-31B-it-DFlash – spekulativ dekoding for Googles åpne modell

Gemma-4-31B-it-DFlash er en ny variant av Googles Gemma 4 31B utgitt av Z Lab, med DFlash spekulativ dekoding som kan gi opptil 8x raskere inferens. Llama.cpp-støtte er under utvikling via PR #22105.
Jan Sverre analyserer DeepSeek V4 Pro og Flash - kinesiske open source AI-modeller med 1,6 billiarder parametere

DeepSeek V4 Pro og Flash – 1,6 billiarder parametere og Huawei Ascend-støtte

DeepSeek V4 Pro og Flash er lansert med 1,6 billiarder parametere, MIT-lisens og støtte for Huawei Ascend-chips. Modellen er god men ikke lenger benchmarks-leder – her er hva du trenger å vite.
Jan Sverre utforsker IBM Granite 4.1 sine tre open source AI-modeller på 3B, 8B og 30B parametere

IBM Granite 4.1 – open source AI-modeller i 3B, 8B og 30B

IBM Granite 4.1 er tre nye open source AI-modeller (3B, 8B og 30B) med Apache 2.0-lisens, 512K tokens kontekstvindu og FP8-kvantisering. 8B-modellen matcher tidligere 32B MoE-modell – og kjører på vanlig gaming-GPU.