Jan Sverre Bauge analyserer Gemini 3.5 Flash i et moderne serverrom med holografisk display

Gemini 3.5 Flash – Googles raskeste frontiermodell er her

Gemini 3.5 Flash er lansert – 4x raskere enn andre frontiermodeller, og bygget for agentic workflows. Her er hva som er nytt og hva det betyr i praksis.
Jan Sverre studerer benchmark-resultater for HRM-Text 1B på en skjerm i et elektronikklaboratorium

HRM-Text 1B – 1000 dollar og 40 milliarder tokens for å slå Llama 3.2 3B

Sapient Intelligence trente HRM-Text 1B på 40 milliarder tokens med 16 GPUer på under 2 dager. Resultatet: bedre enn Llama 3.2 3B på MATH og DROP. Her er tallene – og hva de ikke forteller deg.
Jan Sverre studerer DystopiaBench-resultater på skjermer i serverrom

DystopiaBench – hva skjer når du ber 42 AI-modeller om å bygge apokalypsen?

DystopiaBench testet 42 LLM-er på 36 eskalerende scenarier – fra uskyldig spørring til «bygg et sosialt kredittssystem». Funnene om closed-source-modeller er overraskende.
Jan Sverre på gulvet med en liten robot som koder - SmallCode agent for lokale modeller

SmallCode – coding agent som faktisk fungerer med lokale modeller

SmallCode er en coding agent bygget fra bunnen for små lokale modeller. Resultatet: 87% benchmark-score med Gemma 4 på kun 4B aktive parametere – mot OpenCodes 75% med 14B-modeller.
Jan Sverre utforsker Lance, ByteDances 3B multimodale AI-modell for bilde og video

Lance – ByteDances 3B-modell for bilde og video i ett system

Lance er ByteDances nye 3B open source-modell som håndterer bildegenerering, videogenerering og bilderedigering i ett system. Apache 2.0-lisens, 40GB VRAM.
Jan Sverre undersøker benchmark-resultater fra M5 Max, DGX Spark, Strix Halo og RTX Pro 6000 side om side

M5 Max vs DGX Spark vs Strix Halo vs RTX Pro 6000 – hvem vinner for lokal AI?

Tre dagers parallell benchmark-kjøring av M5 Max, DGX Spark, AMD Strix Halo og RTX Pro 6000. Her er tallene – og de er ikke overraskende når du forstår minnebåndbredde.
Jan Sverre foran terminaler som viser GRPO-trening og HumanEval 80 prosent resultat

Liten AI-modell lærte seg selv å kode – nådde 80 % på HumanEval

En utvikler lot en liten AI-modell trene på sine egne feil med GRPO og verifiable rewards – uten menneskeskrevet data. Resultatet: 80 % på HumanEval og bedre matte enn GPT-3.5.
Jan Sverre i et massivt datasenter med serverstativ for Ring-2.6-1T trillion-parameter AI-modell

Ring-2.6-1T – en billion parametere, MIT-lisens og benchmarks som slår GPT-5

Ring-2.6-1T er en open source reasoning-modell med 1 billion parametere fra inclusionAI. MIT-lisens, 128K kontekst og benchmarks som slår GPT-5 og Claude Opus 4.7 – men krever enterprise-infrastruktur for å kjøre.
Jan Sverre sitter i et hjemmelaboratorium omgitt av GPU-er og benchmarkgrafer på skjermen

RTX 5090 og lokal LLM – hva skjer med ytelse når du skrur ned strømmen?

Detaljert benchmark av RTX 5090 ved ulike strømnivåer: prompt parsing, token-generering og strøm-effektivitet for lokal LLM-kjøring. Hvor er sweet spot?
Jan Sverre ser på holografiske sanntids AI-strømmer fra TML-Interaction-Small

TML-Interaction-Small – Thinking Machines Labs modell for sanntids AI-samtale

Thinking Machines Lab lanserer TML-Interaction-Small, en 276B MoE-modell som hører og snakker samtidig – uten VAD og uten frysing under generering. På FD-bench v1.5 scorer den 77,8 mot Geminis 54,3.