Jan Sverre studerer et Mixture of Experts-nettverksdiagram som viser ZAYA1-8B sin selektive parameteraktivering med AMD-hardware i bakgrunnen

ZAYA1-8B – Zyphra sin MoE-modell slår modeller 15 ganger større

ZAYA1-8B fra Zyphra aktiverer bare 760 millioner parametere per inferens, men slår modeller med 119 milliarder parametere på matematikk-benchmarks. Trent ende-til-ende på AMD Instinct MI300x og tilgjengelig under Apache 2.0-lisens.
Jan Sverre inspiserer et massivt AI-datacenter med GPU-racker og fiberoptiske kabler som visualiserer OpenAIs MRC-protokoll

OpenAI MRC – ny åpen nettverksprotokoll for AI-supercomputere med 100 000+ GPUer

OpenAI lanserte MRC (Multipath Reliable Connection) i mai 2026 – en åpen nettverksprotokoll som kobler 131 000 GPUer med bare to Ethernet-svitsjenivåer, gjenvinner fra nettverksfeil på mikrosekunder, og er allerede i bruk i OpenAIs GB200-supercomputere.
Jan Sverre studerer svevende minnekort og datanoder som reorganiserer seg i luften - en illustrasjon av Claude Dreams-funksjonen for AI-agenter

Claude Dreams – slik rydder AI-agenter opp i sine egne minner

Anthropic lanserte Dreams for Claude Managed Agents 6. mai 2026 – en funksjon der AI-agenter asynkront reorganiserer sine egne minnelagre. Samme dag ble Claude Code-grensene doblet for Pro og Max-brukere.
Jan Sverre ser ettertenksomt på en ung persons AI-chatbot-samtale om psykisk helse på mobilskjerm i halvmørkt rom

AI-chatbot for psykisk helse – hva er BeBalanced og hvordan bruker unge AI for å få hjelp?

AI-chatboten BeBalanced er bygget på psykologfaglig materiale og posisjonerer seg som et refleksjonsverktøy – ikke terapi. Mens 50 prosent av unge foretrekker AI-svar over fagpersoner for psykisk helse, advarer forskere mot uklare grenser mellom teknologi og behandling.
Jan Sverre studerer Atlas inferensmotor-kode på skjerm med Rust og CUDA i mørkt rom med grønt skjærskjær

Atlas inference engine – open source Rust og CUDA slår vLLM med 131 tokens per sekund

Atlas inference engine er nå open source – en LLM-inferensmotor skrevet i ren Rust og CUDA uten Python eller PyTorch. Oppnår 131 tokens per sekund på Qwen3.5-35B, raskere enn NVIDIAs vLLM på identisk GB10-maskinvare.
Mann i mørkt auditorium ser mot scenen under Code w/ Claude 2026-eventet med blå scenelys

Code w/ Claude 2026 – hva Anthropic annonserte på utviklerkonferansen

Anthropic holdt Code w/ Claude 2026 den 6. mai. Ingen ny modell – men Routines, Remote Agents, Outcomes, Dreaming og dobling av rate limits i Claude Code. Her er hva som faktisk ble annonsert.
Jan Sverre studerer distribuert AI-inferens med to maskiner koblet via nettverk på hjemmekontoret

LARQL – kjør Gemma 4 26B på to billige maskiner med decoupled attention

LARQL er et open source Rust-prosjekt som lar deg kjøre Gemma 4 26B spredt over to billige maskiner ved å koble attention-mekanismen fra modellvektene. Distribuert lokal AI-inferens uten dyr GPU-rigg – her er hva det betyr i praksis.
Jan Sverre utforsker vibevoice.cpp - Microsofts lokale tale-AI med speaker diarization og TTS på CPU og GPU

vibevoice.cpp – Microsofts tale-AI kjøres lokalt uten Python

vibevoice.cpp er en C++-port av Microsofts VibeVoice som lar deg kjøre avansert tale-AI lokalt – TTS, long-form ASR og speaker diarization på CPU, CUDA, Metal og Vulkan uten Python.
Jan Sverre utforsker OpenAIs WebRTC relay-arkitektur for lav-latens stemme-AI med 900 millioner brukere

OpenAI Voice AI – slik leverer de lav latens til 900 millioner brukere

OpenAI redesignet hele WebRTC-stakken for ChatGPT Voice og Realtime API – relay pluss transceiver-arkitektur, Global Relay og Go-implementasjon som leverer lav latens til 900 millioner ukentlige brukere.
Jan Sverre fascinert over MTPLX ytelsesøkning på MacBook Pro M5 Max - 2,24 ganger raskere MTP-inferens

MTPLX – 2,24 ganger raskere MTP-inferens for Apple Silicon

MTPLX er en ny MTP-inferensmotor for Apple Silicon som gir 2,24 ganger raskere token-generering uten ekstra minne. Qwen3.6-27B gikk fra 28 til 63 tokens per sekund på MacBook Pro M5 Max.