Jan Sverre i et lydstudio med mikrofon, omgitt av lydbølger og AI-visualiseringer for DramaBox TTS

DramaBox – den mest ekspressive TTS-modellen du kan kjøre selv

DramaBox fra Resemble AI er en open source TTS-modell som kloner stemmer og styrer latter, sukk og pauser via tekstprompt. Krever 24 GB VRAM.
Jan Sverre ser på holografiske sanntids AI-strømmer fra TML-Interaction-Small

TML-Interaction-Small – Thinking Machines Labs modell for sanntids AI-samtale

Thinking Machines Lab lanserer TML-Interaction-Small, en 276B MoE-modell som hører og snakker samtidig – uten VAD og uten frysing under generering. På FD-bench v1.5 scorer den 77,8 mot Geminis 54,3.
Jan Sverre Bauge sitter med MacBook Pro og ser på terminalen som viser MTP-ytelse på 34 tokens per sekund

MTP + TurboQuant på LLaMA.cpp – Qwen 27B til 34 tokens per sekund på MacBook

Multi-Token Prediction kombinert med TurboQuant gir Qwen 27B 34 tokens per sekund på MacBook Pro M5 Max – en økning på 40% uten ekstra kostnad.
Jan Sverre studerer multimodale AI-resultater fra Ovis2.6-80B på flere skjermer sent på kvelden

Ovis2.6-80B-A3B – multimodal AI med MoE-arkitektur og 64K kontekst

Ovis2.6-80B-A3B er en ny åpen multimodal AI-modell med Mixture-of-Experts-arkitektur som bruker 80 milliarder parametere totalt men bare 3 milliarder under inferens. Apache 2.0-lisens, 64K kontekst og aktiv visuell resonnering.
Jan Sverre holder en Game Boy Color med AI-tekst på pikselskjermen, varmt lampelys i mørkt rom

AI på Game Boy Color – ekte transformer-modell kjører på 8-bit hardware fra 1998

En utvikler har fått Andrej Karpathys TinyStories-260K transformer-modell til å kjøre lokalt på en umodifisert Game Boy Color – uten PC, Wi-Fi eller sky. Her er den tekniske forklaringen og hva det betyr for edge AI.
Jan Sverre ser på benchmarkresultater fra Luce DFlash på AMD Ryzen AI MAX+ 395 med Qwen3.6-27B

Luce DFlash og PFlash på AMD Strix Halo – 2,23x raskere lokal inferens med Qwen3.6-27B

Luce DFlash og PFlash er nå portert til AMD Ryzen AI MAX+ 395 (Strix Halo) med 128 GB unified memory. Qwen3.6-27B kjører 2,23 ganger raskere i decode og 3,05 ganger raskere i prefill enn llama.cpp HIP. MIT-lisens, åpen kildekode.
Jan Sverre ved skrivebordet sent på kvelden, studerer Needle 26M modellen på skjermen mens en liten chip-illustrasjon lyser opp rommet

Needle – 26M parameter modell distillerer Gemini tool calling til forbrukerhardware

Needle er en 26 millioner parameter modell fra Cactus Compute som distillerer Gemini 3.1 tool calling ned i en «Simple Attention Network». Kjører 6 000 tokens per sekund på forbrukerhardware. MIT-lisens, open source.
Jan Sverre i serverrom med blågrønt lys fra racks, tablet viser AI-genererte videorammer fra Alice v1

Alice v1 – open source videomodell som utfordrer Sora og Veo

Alice v1 er en 14-milliarder parameter open source videomodell fra Mirage med Apache 2.0-lisens. Bruker rCM-destillasjon og MoE-arkitektur for å generere 720p video på 4 inferenstrinn – og hevder å slå lukkede modeller som Sora og Veo.
Jan Sverre foran to skjermer sent på kvelden mens han optimaliserer LTX-2.3 inference-hastighet fra 300 sekunder til 45 sekunder

LTX-2.3 inference-optimalisering – fra 300 sekunder til 45 sekunder på RTX 3080 Ti

LTX-2.3 tar 300 sekunder å generere video på RTX 3080 Ti med standardoppsett. Med TeaCache, SageAttention og FP8-kvantisering kombinert kan det kappes ned til 45 sekunder – en 6,7x speedup uten å ofre videokvalitet.
Jan Sverre i serverrom med Anthropic og AWS-logoer - Claude Platform on AWS lansert mai 2026

Claude Platform on AWS – Anthropics nye enterprise-tilbud

Anthropic lanserte Claude Platform on AWS 11. mai 2026 – full feature-paritet med Anthropics native API, betalt via AWS-kontoen din. Ikke det samme som Amazon Bedrock. Her er hva forskjellen betyr i praksis.