AI-benchmarks

Jan Sverre i tolkeboks med sanntidsoversettelse på skjerm - Qwen3.5-LiveTranslate-Flash

Qwen3.5-LiveTranslate-Flash – sanntidsoversettelse på 2,8 sekunder

Alibabas Qwen3.5-LiveTranslate-Flash oversetter tale og video på 2,8 sekunder på tvers av 60 språk – med stemmekloning, leppeavlesning og domenespesifikk terminologi.

21. mai 2026
66 visninger
3 minutter lesetid

Jan Sverre undersøker holografisk visualisering av Nemotron-Labs-Diffusion sine tre dekodingsmodus i NVIDIA serverrom

Nemotron-Labs-Diffusion – NVIDIAs språkmodell med 6× gjennomstrøm

NVIDIA har sluppet Nemotron-Labs-Diffusion – en språkmodell som kombinerer tre dekodingsmodus i én arkitektur og leverer 6× høyere gjennomstrøm enn Qwen3-8B.

20. mai 2026
80 visninger
4 minutter lesetid

Jan Sverre Bauge analyserer Gemini 3.5 Flash i et moderne serverrom med holografisk display

Gemini 3.5 Flash – Googles raskeste frontiermodell er her

Gemini 3.5 Flash er lansert – 4x raskere enn andre frontiermodeller, og bygget for agentic workflows. Her er hva som er nytt og hva det betyr i praksis.

20. mai 2026
95 visninger
4 minutter lesetid

Jan Sverre studerer benchmark-resultater for HRM-Text 1B på en skjerm i et elektronikklaboratorium

HRM-Text 1B – 1000 dollar og 40 milliarder tokens for å slå Llama 3.2 3B

Sapient Intelligence trente HRM-Text 1B på 40 milliarder tokens med 16 GPUer på under 2 dager. Resultatet: bedre enn Llama 3.2 3B på MATH og DROP. Her er tallene – og hva de ikke forteller deg.

19. mai 2026
91 visninger
4 minutter lesetid

Jan Sverre studerer DystopiaBench-resultater på skjermer i serverrom

DystopiaBench – hva skjer når du ber 42 AI-modeller om å bygge apokalypsen?

DystopiaBench testet 42 LLM-er på 36 eskalerende scenarier – fra uskyldig spørring til «bygg et sosialt kredittssystem». Funnene om closed-source-modeller er overraskende.

19. mai 2026
86 visninger
5 minutter lesetid

Jan Sverre på gulvet med en liten robot som koder - SmallCode agent for lokale modeller

SmallCode – coding agent som faktisk fungerer med lokale modeller

SmallCode er en coding agent bygget fra bunnen for små lokale modeller. Resultatet: 87% benchmark-score med Gemma 4 på kun 4B aktive parametere – mot OpenCodes 75% med 14B-modeller.

18. mai 2026
75 visninger
3 minutter lesetid

Jan Sverre utforsker Lance, ByteDances 3B multimodale AI-modell for bilde og video

Lance – ByteDances 3B-modell for bilde og video i ett system

Lance er ByteDances nye 3B open source-modell som håndterer bildegenerering, videogenerering og bilderedigering i ett system. Apache 2.0-lisens, 40GB VRAM.

18. mai 2026
91 visninger
4 minutter lesetid

Jan Sverre undersøker benchmark-resultater fra M5 Max, DGX Spark, Strix Halo og RTX Pro 6000 side om side

M5 Max vs DGX Spark vs Strix Halo vs RTX Pro 6000 – hvem vinner for lokal AI?

Tre dagers parallell benchmark-kjøring av M5 Max, DGX Spark, AMD Strix Halo og RTX Pro 6000. Her er tallene – og de er ikke overraskende når du forstår minnebåndbredde.

18. mai 2026
139 visninger
5 minutter lesetid

Jan Sverre foran terminaler som viser GRPO-trening og HumanEval 80 prosent resultat

Liten AI-modell lærte seg selv å kode – nådde 80 % på HumanEval

En utvikler lot en liten AI-modell trene på sine egne feil med GRPO og verifiable rewards – uten menneskeskrevet data. Resultatet: 80 % på HumanEval og bedre matte enn GPT-3.5.

15. mai 2026
86 visninger
4 minutter lesetid

Jan Sverre i et massivt datasenter med serverstativ for Ring-2.6-1T trillion-parameter AI-modell

Ring-2.6-1T – en billion parametere, MIT-lisens og benchmarks som slår GPT-5

Ring-2.6-1T er en open source reasoning-modell med 1 billion parametere fra inclusionAI. MIT-lisens, 128K kontekst og benchmarks som slår GPT-5 og Claude Opus 4.7 – men krever enterprise-infrastruktur for å kjøre.

15. mai 2026
79 visninger
4 minutter lesetid

Jan Sverre sitter i et hjemmelaboratorium omgitt av GPU-er og benchmarkgrafer på skjermen

RTX 5090 og lokal LLM – hva skjer med ytelse når du skrur ned strømmen?

Detaljert benchmark av RTX 5090 ved ulike strømnivåer: prompt parsing, token-generering og strøm-effektivitet for lokal LLM-kjøring. Hvor er sweet spot?

14. mai 2026
112 visninger
5 minutter lesetid

Jan Sverre ser på holografiske sanntids AI-strømmer fra TML-Interaction-Small

TML-Interaction-Small – Thinking Machines Labs modell for sanntids AI-samtale

Thinking Machines Lab lanserer TML-Interaction-Small, en 276B MoE-modell som hører og snakker samtidig – uten VAD og uten frysing under generering. På FD-bench v1.5 scorer den 77,8 mot Geminis 54,3.

14. mai 2026
87 visninger
5 minutter lesetid

Jan Sverre studerer et Mixture of Experts-nettverksdiagram som viser ZAYA1-8B sin selektive parameteraktivering med AMD-hardware i bakgrunnen

ZAYA1-8B – Zyphra sin MoE-modell slår modeller 15 ganger større

ZAYA1-8B fra Zyphra aktiverer bare 760 millioner parametere per inferens, men slår modeller med 119 milliarder parametere på matematikk-benchmarks. Trent ende-til-ende på AMD Instinct MI300x og tilgjengelig under Apache 2.0-lisens.

7. mai 2026
92 visninger
4 minutter lesetid

Jan Sverre utforsker IBM Granite 4.1 sine tre open source AI-modeller på 3B, 8B og 30B parametere

IBM Granite 4.1 – open source AI-modeller i 3B, 8B og 30B

IBM Granite 4.1 er tre nye open source AI-modeller (3B, 8B og 30B) med Apache 2.0-lisens, 512K tokens kontekstvindu og FP8-kvantisering. 8B-modellen matcher tidligere 32B MoE-modell – og kjører på vanlig gaming-GPU.

30. april 2026
110 visninger
6 minutter lesetid

Qwen3.5-LiveTranslate-Flash – sanntidsoversettelse på 2,8 sekunder

Nemotron-Labs-Diffusion – NVIDIAs språkmodell med 6× gjennomstrøm

Gemini 3.5 Flash – Googles raskeste frontiermodell er her

HRM-Text 1B – 1000 dollar og 40 milliarder tokens for å slå Llama 3.2 3B

DystopiaBench – hva skjer når du ber 42 AI-modeller om å bygge apokalypsen?

SmallCode – coding agent som faktisk fungerer med lokale modeller

Lance – ByteDances 3B-modell for bilde og video i ett system

M5 Max vs DGX Spark vs Strix Halo vs RTX Pro 6000 – hvem vinner for lokal AI?

Liten AI-modell lærte seg selv å kode – nådde 80 % på HumanEval

Ring-2.6-1T – en billion parametere, MIT-lisens og benchmarks som slår GPT-5

RTX 5090 og lokal LLM – hva skjer med ytelse når du skrur ned strømmen?

TML-Interaction-Small – Thinking Machines Labs modell for sanntids AI-samtale

ZAYA1-8B – Zyphra sin MoE-modell slår modeller 15 ganger større

IBM Granite 4.1 – open source AI-modeller i 3B, 8B og 30B

Glutenfri sitronkake – min beste oppskrift

Amazon droppet Sam Altman-filmen etter 50 milliarder til OpenAI – nå vil ingen ha den

Suno AI – 150 Låter Testet: Hva Funker og Hva Er Bortkastet Tid

Claude AI – pris, funksjoner og norsk guide (2026)

Suno AI Copyright 2026 – Opphavsrett og Rettigheter for AI-Musikk

Glutenfri sitronkake – min beste oppskrift

Kaffegrut i Hagen – Slik Bruker Du Det som Gjødsel og Skadedyrbekjemper

Sterk Chili Kaffe

Stekt Kylling i Airfryer