AI-benchmarks

Jan Sverre ser skeptisk på holografiske AI-modell-kort som svever rundt ham ved skrivebordet

Fugu Ultra lover Fable-ytelse – men er det egentlig en ny modell?

Sakana Fugu Ultra kapret overskriftene med ville benchmark-tall. Men under panseret finner du ikke en ny modell – du finner Claude Opus 4.8 og GPT-5.5 innpakket i et orkestrerings-skall. Tre uavhengige tester viser det samme: tregere, dyrere, sjelden bedre.

24. juni 2026
54 visninger
6 minutter lesetid

Jan Sverre ser på dokumenter som forvandles til strukturert JSON-data

lift: Datalab slipper åpen 9B-modell som gjør PDF om til strukturert JSON

lift er en åpen 9B vision-modell fra Datalab som trekker strukturert JSON ut av PDF-er og bilder basert på ditt eget schema. Selvhostbar via vLLM, Apache 2.0-kode, og trent til å returnere null i stedet for å hallusinere felt den ikke finner.

24. juni 2026
53 visninger
4 minutter lesetid

Jan Sverre ser skeptisk på holografisk display med AI-modell hallusinasjonsrater

GPT-5.5 hallusinerer tre ganger mer enn GLM-5.2 – og det er et problem

Ny benchmark viser at GPT-5.5 hallusinerer med 86 % på AA-Omniscience-testen, mot GLM-5.2 sine 28 %. Hva betyr det for deg som bruker AI i praksis?

22. juni 2026
45 visninger
6 minutter lesetid

Jan Sverre ser på visualisering av MiniMax M3 sparse attention-arkitektur med 1 million tokens kontekst

MiniMax M3 – er dette den beste åpen-vekt-modellen for lang kontekst og AI-koding?

MiniMax M3 lover 1 million tokens kontekst, 59% på SWE-Bench og innebygd multimodalitet. Her er hva det faktisk betyr for deg.

2. juni 2026
90 visninger
4 minutter lesetid

Jan Sverre utforsker de beste TTS-modellene i 2026

Hvilken TTS-modell er best i 2026? Her er hva benchmarkene faktisk sier

Gemini TTS, ElevenLabs, Kokoro – hvilken TTS-modell passer deg best? Her er en praktisk gjennomgang basert på benchmarkdata og egne erfaringer med norsk språkstøtte.

1. juni 2026
106 visninger
5 minutter lesetid

Jan Sverre stirrer på OpenRouter-rangeringer dominert av det mystiske Hy3 fra Tencent

Hva er Hy3 – og hvorfor topper den OpenRouter-rangeringene uten at noen snakker om det?

Hy3 fra Tencent topper OpenRouter-rangeringene i mai 2026 med over 50 prosent margin over Claude – men ingen vet hvem som bruker den. Her er det vi vet om mysteriet.

1. juni 2026
110 visninger
4 minutter lesetid

Jan Sverre Bauge ser på Anthropic Opus 4.8 og Dynamic Workflows-lanseringen

Anthropic henter 65 milliarder og slipper Opus 4.8 – hva betyr det for deg?

Anthropic henter 65 milliarder dollar og lanserer Claude Opus 4.8 med Dynamic Workflows. Her er hva som faktisk er nytt – og hva det koster.

29. mai 2026
100 visninger
4 minutter lesetid

Jan Sverre ser på ytelsestall fra BeeLlama DFlash på RTX 3090 - 177 tokens per sekund

Slik får du nesten 5x raskere lokal AI på én RTX 3090 – BeeLlama v0.2.0 forklart

BeeLlama v0.2.0 gir opptil 4,9x raskere tekstgenerering med Gemma 4 31B og Qwen3.6 27B på én enkelt RTX 3090 – uten ekstra maskinvare.

27. mai 2026
87 visninger
5 minutter lesetid

Jan Sverre undersøker MiniCPM5-1B som kjører lokalt på en liten ARM-enhet

MiniCPM5-1B – reasoning og tool use på 1 milliard parametere

MiniCPM5-1B er en 1B-modell med hybrid reasoning, 131 000 tokens kontekst og tool use – og kjører lokalt via Ollama. Her er hva den faktisk kan.

26. mai 2026
102 visninger
4 minutter lesetid

Jan Sverre ved skrivebordet med Claude AI-chat på skjermen

Hva er Claude AI? Komplett guide for nybegynnere (2026)

Hva er Claude AI? En enkel og ærlig guide: hvem som laget det, hvilke versjoner som finnes, hva det koster, og hvordan du kommer i gang i dag.

26. mai 2026
211 visninger
7 minutter lesetid

Jan Sverre studerer bildegenerering-benchmark med fem AI-modeller på skjermvegg

Klein-4B, SANA 1.5, Qwen Image og Z-Image Turbo – hvem vinner bildeduellen?

Detaljert sammenligning av fem bildegenererings-modeller på 192 prompts: Klein-4B, Nucleus-Image, Z-Image Turbo, SANA 1.5 og Qwen Image. Hvem leverer best kvalitet, hastighet og verdi i 2026?

26. mai 2026
80 visninger
5 minutter lesetid

Jan Sverre undersøker AMD RDNA3 GPU-hardware med hipEngine benchmark-resultater på skjermen

hipEngine – ROCm-native inference engine for AMD RDNA3 og Strix Halo

hipEngine er et nytt open source inference engine for AMD RDNA3-GPUer – kjører Qwen3.6 35B på 103 tok/s på RX 7900 XTX uten PyTorch-overhead. 120+ egenskrevne HIP-kjerner, 50% raskere prefill enn llama.cpp ved 128K kontekst.

25. mai 2026
87 visninger
5 minutter lesetid

Jan Sverre ser på en nettleser som styres autonomt av Microsofts Fara1.5 AI-agent

Fara1.5 – Microsofts nettleser-AI slår OpenAI Operator med 14 prosentpoeng

Microsoft Research har sluppet Fara1.5 – en familie med nettleser-AI i tre størrelser (4B/9B/27B) som scorer 72% på Online-Mind2Web og slår OpenAI Operator med 14 prosentpoeng. Her er hva du trenger å vite om treningsdataen, FaraGen1.5-pipelinen og tilgjengeligheten.

22. mai 2026
85 visninger
4 minutter lesetid

Jan Sverre ser på holografisk Qwen3-display i verkstedet - skeptisk men nysgjerrig blikk

Qwen3 open weight er ute – og LocalLLaMA kaller det ny toppmodell

Alibabas Qwen3 open weight-modell er tilgjengelig for lokal kjøring. Apache 2.0-lisens, 256K kontekst, thinking mode – og LocalLLaMA-fellesskapet er begeistret.

22. mai 2026
79 visninger
4 minutter lesetid

Fugu Ultra lover Fable-ytelse – men er det egentlig en ny modell?

lift: Datalab slipper åpen 9B-modell som gjør PDF om til strukturert JSON

GPT-5.5 hallusinerer tre ganger mer enn GLM-5.2 – og det er et problem

MiniMax M3 – er dette den beste åpen-vekt-modellen for lang kontekst og AI-koding?

Hvilken TTS-modell er best i 2026? Her er hva benchmarkene faktisk sier

Hva er Hy3 – og hvorfor topper den OpenRouter-rangeringene uten at noen snakker om det?

Anthropic henter 65 milliarder og slipper Opus 4.8 – hva betyr det for deg?

Slik får du nesten 5x raskere lokal AI på én RTX 3090 – BeeLlama v0.2.0 forklart

MiniCPM5-1B – reasoning og tool use på 1 milliard parametere

Hva er Claude AI? Komplett guide for nybegynnere (2026)

Klein-4B, SANA 1.5, Qwen Image og Z-Image Turbo – hvem vinner bildeduellen?

hipEngine – ROCm-native inference engine for AMD RDNA3 og Strix Halo

Fara1.5 – Microsofts nettleser-AI slår OpenAI Operator med 14 prosentpoeng

Qwen3 open weight er ute – og LocalLLaMA kaller det ny toppmodell

Glutenfri sitronkake – min beste oppskrift

Amazon droppet Sam Altman-filmen etter 50 milliarder til OpenAI – nå vil ingen ha den

Suno AI – 150 Låter Testet: Hva Funker og Hva Er Bortkastet Tid

Claude AI – pris, funksjoner og norsk guide (2026)

Suno AI Copyright 2026 – Opphavsrett og Rettigheter for AI-Musikk

Glutenfri sitronkake – min beste oppskrift

Kaffegrut i Hagen – Slik Bruker Du Det som Gjødsel og Skadedyrbekjemper

Sterk Chili Kaffe

Stekt Kylling i Airfryer