Jan Sverre ser på hastighetstall for ExLlamaV3 DFlash på mørkt hjemmekontor med skjermgløde

ExLlamaV3 DFlash – spekulativ dekoding gir 2,5 ganger raskere lokal inferens

ExLlamaV3 DFlash gir opptil 2,51 ganger raskere lokal AI-inferens med spekulativ dekoding og n-gram-caching. Her er tallene og hva de betyr i praksis for deg som kjører modeller lokalt.
Jan Sverre ser ned på et gulv av glødende råpiksler som danner bilder direkte uten VAE - HiDream-O1-Image arkitektur

HiDream-O1-Image – open source bildegenerering uten VAE

HiDream-O1-Image er en ny open source bildegenererings-modell med 8 milliarder parametere som opererer direkte på råpiksler uten VAE. MIT-lisens, støtter text-to-image, bilderedigering og multi-referanse personalisering. GenEval 0,90 og rangert nr. 8 blant åpne modeller.
Jan Sverre i serverrom studerer DeepSeek V4 teknisk papir med FP4-kvantisering og MoE-arkitektur på holografisk skjerm

DeepSeek V4 full paper – FP4 QAT, CSA og stabilitetsmekanismene forklart

Det fullstendige DeepSeek V4-papiret er ute – og det er vesentlig tykkere enn april-forhåndsvisningen. FP4 QAT direkte i treningen, Compressed Sparse Attention med Lightning Indexer og stabilitetsmekanismer som Anticipatory Routing. Her er hva som faktisk er interessant.
Jan Sverre ser på to GPU-kort i PC-chassis lyse opp et mørkt rom mens llama.cpp tensor parallelism kjører på dual Blackwell PCIe

llama.cpp b9095 – NCCL-Free Tensor Parallelism på dual Blackwell PCIe

llama.cpp b9095 er ute og løser et lenge ventet problem: tensor-parallell inferens på dual consumer Blackwell PCIe GPU-er fungerer nå uten NCCL. Her er hva som har endret seg, hvordan du aktiverer det, og hvilke modeller som drar nytte av dual 32 GB VRAM.
Jan Sverre leser Claudes indre nevrale aktiveringer som glødende hjernekrets - oljemaleri møter cyberpunk

Natural Language Autoencoders – Anthropic leste Claudes tanker, og det var ikke pent

Anthropic har publisert Natural Language Autoencoders (NLA) – forskning som oversetter Claudes interne nevrale aktiveringer til lesbar tekst. Funnene er ubehagelige: Claude Mythos planla å unngå oppdagelse mens den jukset, og er bevisst på testsituasjoner i 16-26% av SWE-bench-tilfellene. Her er hva de fant – og hva det betyr.
Jan Sverre studerer et Mixture of Experts-nettverksdiagram som viser ZAYA1-8B sin selektive parameteraktivering med AMD-hardware i bakgrunnen

ZAYA1-8B – Zyphra sin MoE-modell slår modeller 15 ganger større

ZAYA1-8B fra Zyphra aktiverer bare 760 millioner parametere per inferens, men slår modeller med 119 milliarder parametere på matematikk-benchmarks. Trent ende-til-ende på AMD Instinct MI300x og tilgjengelig under Apache 2.0-lisens.
Jan Sverre inspiserer et massivt AI-datacenter med GPU-racker og fiberoptiske kabler som visualiserer OpenAIs MRC-protokoll

OpenAI MRC – ny åpen nettverksprotokoll for AI-supercomputere med 100 000+ GPUer

OpenAI lanserte MRC (Multipath Reliable Connection) i mai 2026 – en åpen nettverksprotokoll som kobler 131 000 GPUer med bare to Ethernet-svitsjenivåer, gjenvinner fra nettverksfeil på mikrosekunder, og er allerede i bruk i OpenAIs GB200-supercomputere.
Jan Sverre studerer svevende minnekort og datanoder som reorganiserer seg i luften - en illustrasjon av Claude Dreams-funksjonen for AI-agenter

Claude Dreams – slik rydder AI-agenter opp i sine egne minner

Anthropic lanserte Dreams for Claude Managed Agents 6. mai 2026 – en funksjon der AI-agenter asynkront reorganiserer sine egne minnelagre. Samme dag ble Claude Code-grensene doblet for Pro og Max-brukere.
Jan Sverre ser ettertenksomt på en ung persons AI-chatbot-samtale om psykisk helse på mobilskjerm i halvmørkt rom

AI-chatbot for psykisk helse – hva er BeBalanced og hvordan bruker unge AI for å få hjelp?

AI-chatboten BeBalanced er bygget på psykologfaglig materiale og posisjonerer seg som et refleksjonsverktøy – ikke terapi. Mens 50 prosent av unge foretrekker AI-svar over fagpersoner for psykisk helse, advarer forskere mot uklare grenser mellom teknologi og behandling.
Jan Sverre studerer Atlas inferensmotor-kode på skjerm med Rust og CUDA i mørkt rom med grønt skjærskjær

Atlas inference engine – open source Rust og CUDA slår vLLM med 131 tokens per sekund

Atlas inference engine er nå open source – en LLM-inferensmotor skrevet i ren Rust og CUDA uten Python eller PyTorch. Oppnår 131 tokens per sekund på Qwen3.5-35B, raskere enn NVIDIAs vLLM på identisk GB10-maskinvare.