Jan Sverre foran terminaler som viser GRPO-trening og HumanEval 80 prosent resultat

Liten AI-modell lærte seg selv å kode – nådde 80 % på HumanEval

En utvikler lot en liten AI-modell trene på sine egne feil med GRPO og verifiable rewards – uten menneskeskrevet data. Resultatet: 80 % på HumanEval og bedre matte enn GPT-3.5.
Jan Sverre i et massivt datasenter med serverstativ for Ring-2.6-1T trillion-parameter AI-modell

Ring-2.6-1T – en billion parametere, MIT-lisens og benchmarks som slår GPT-5

Ring-2.6-1T er en open source reasoning-modell med 1 billion parametere fra inclusionAI. MIT-lisens, 128K kontekst og benchmarks som slår GPT-5 og Claude Opus 4.7 – men krever enterprise-infrastruktur for å kjøre.
Jan Sverre sitter i et hjemmelaboratorium omgitt av GPU-er og benchmarkgrafer på skjermen

RTX 5090 og lokal LLM – hva skjer med ytelse når du skrur ned strømmen?

Detaljert benchmark av RTX 5090 ved ulike strømnivåer: prompt parsing, token-generering og strøm-effektivitet for lokal LLM-kjøring. Hvor er sweet spot?
Jan Sverre ser på holografiske sanntids AI-strømmer fra TML-Interaction-Small

TML-Interaction-Small – Thinking Machines Labs modell for sanntids AI-samtale

Thinking Machines Lab lanserer TML-Interaction-Small, en 276B MoE-modell som hører og snakker samtidig – uten VAD og uten frysing under generering. På FD-bench v1.5 scorer den 77,8 mot Geminis 54,3.
Jan Sverre studerer et Mixture of Experts-nettverksdiagram som viser ZAYA1-8B sin selektive parameteraktivering med AMD-hardware i bakgrunnen

ZAYA1-8B – Zyphra sin MoE-modell slår modeller 15 ganger større

ZAYA1-8B fra Zyphra aktiverer bare 760 millioner parametere per inferens, men slår modeller med 119 milliarder parametere på matematikk-benchmarks. Trent ende-til-ende på AMD Instinct MI300x og tilgjengelig under Apache 2.0-lisens.
Jan Sverre utforsker IBM Granite 4.1 sine tre open source AI-modeller på 3B, 8B og 30B parametere

IBM Granite 4.1 – open source AI-modeller i 3B, 8B og 30B

IBM Granite 4.1 er tre nye open source AI-modeller (3B, 8B og 30B) med Apache 2.0-lisens, 512K tokens kontekstvindu og FP8-kvantisering. 8B-modellen matcher tidligere 32B MoE-modell – og kjører på vanlig gaming-GPU.
Mann som dykker ned i en digital pool av kode og AI-agenter - Poolside AI Laguna lansering

Poolside AI lanserer Laguna XS.2 og M.1 – spesialiserte agentic coding-modeller

Poolside AI lanserte 28. april 2026 sine to første offentlige modeller: Laguna M.1 (225B/23B aktive parametere) og Laguna XS.2 (33B/3B aktive, Apache 2.0). Begge er bygget for agentic coding og lange autonome kodingssessjoner – og begge er gratis via API og OpenRouter nå.
Jan Sverre ser skeptisk på kamp mellom DeepSeek V4 og Claude i anime-stil med neon-farger

DeepSeek V4 preview – kinesisk AI utfordrer Claude og GPT igjen

DeepSeek lanserte 24. april 2026 en preview av V4 – to modeller med 1 million tokens kontekst, open source, og benchmark-resultater som matcher Claude Opus 4.6 på koding. V4-Flash koster $0,14 per million tokens.
Forsker med utskrifter av AI-benchmark-score som viser 100% resultater ved skrivebordet

AI-agentbenchmarks brutt av Berkeley – 100% score uten å løse én oppgave

UC Berkeley-forskere bygget en agent som scoret 100% på åtte store AI-agentbenchmarks – uten å løse en eneste oppgave. Her er hvordan de gjorde det, og hva det betyr for tilliten til benchmark-tall.