Alt jeg har skrevet om

AI-Modeller

156 innlegg

Her tester og vurderer jeg AI-modellene som faktisk betyr noe. Fra Claude og GPT til Gemini, Llama og lokale modeller du kan kjøre på din egen maskin. Ingen PR-prat – bare ærlige erfaringer fra en som bruker disse verktøyene hver eneste dag. Hva funker, hva funker ikke, og hva er bare hype?

Jan Sverre sitter i et hjemmelaboratorium omgitt av GPU-er og benchmarkgrafer på skjermen

RTX 5090 og lokal LLM – hva skjer med ytelse når du skrur ned strømmen?

Detaljert benchmark av RTX 5090 ved ulike strømnivåer: prompt parsing, token-generering og strøm-effektivitet for lokal LLM-kjøring. Hvor er sweet spot?

14. mai 2026
76 visninger
5 minutter lesetid

Jan Sverre i et lydstudio med mikrofon, omgitt av lydbølger og AI-visualiseringer for DramaBox TTS

DramaBox – den mest ekspressive TTS-modellen du kan kjøre selv

DramaBox fra Resemble AI er en open source TTS-modell som kloner stemmer og styrer latter, sukk og pauser via tekstprompt. Krever 24 GB VRAM.

14. mai 2026
87 visninger
4 minutter lesetid

Jan Sverre ser på holografiske sanntids AI-strømmer fra TML-Interaction-Small

TML-Interaction-Small – Thinking Machines Labs modell for sanntids AI-samtale

Thinking Machines Lab lanserer TML-Interaction-Small, en 276B MoE-modell som hører og snakker samtidig – uten VAD og uten frysing under generering. På FD-bench v1.5 scorer den 77,8 mot Geminis 54,3.

14. mai 2026
63 visninger
5 minutter lesetid

Jan Sverre Bauge sitter med MacBook Pro og ser på terminalen som viser MTP-ytelse på 34 tokens per sekund

MTP + TurboQuant på LLaMA.cpp – Qwen 27B til 34 tokens per sekund på MacBook

Multi-Token Prediction kombinert med TurboQuant gir Qwen 27B 34 tokens per sekund på MacBook Pro M5 Max – en økning på 40% uten ekstra kostnad.

14. mai 2026
124 visninger
4 minutter lesetid

Jan Sverre studerer multimodale AI-resultater fra Ovis2.6-80B på flere skjermer sent på kvelden

Ovis2.6-80B-A3B – multimodal AI med MoE-arkitektur og 64K kontekst

Ovis2.6-80B-A3B er en ny åpen multimodal AI-modell med Mixture-of-Experts-arkitektur som bruker 80 milliarder parametere totalt men bare 3 milliarder under inferens. Apache 2.0-lisens, 64K kontekst og aktiv visuell resonnering.

13. mai 2026
72 visninger
4 minutter lesetid

Jan Sverre ser på benchmarkresultater fra Luce DFlash på AMD Ryzen AI MAX+ 395 med Qwen3.6-27B

Luce DFlash og PFlash på AMD Strix Halo – 2,23x raskere lokal inferens med Qwen3.6-27B

Luce DFlash og PFlash er nå portert til AMD Ryzen AI MAX+ 395 (Strix Halo) med 128 GB unified memory. Qwen3.6-27B kjører 2,23 ganger raskere i decode og 3,05 ganger raskere i prefill enn llama.cpp HIP. MIT-lisens, åpen kildekode.

13. mai 2026
123 visninger
4 minutter lesetid

Jan Sverre ved skrivebordet sent på kvelden, studerer Needle 26M modellen på skjermen mens en liten chip-illustrasjon lyser opp rommet

Needle – 26M parameter modell distillerer Gemini tool calling til forbrukerhardware

Needle er en 26 millioner parameter modell fra Cactus Compute som distillerer Gemini 3.1 tool calling ned i en «Simple Attention Network». Kjører 6 000 tokens per sekund på forbrukerhardware. MIT-lisens, open source.

13. mai 2026
74 visninger
4 minutter lesetid

Jan Sverre i serverrom med Anthropic og AWS-logoer - Claude Platform on AWS lansert mai 2026

Claude Platform on AWS – Anthropics nye enterprise-tilbud

Anthropic lanserte Claude Platform on AWS 11. mai 2026 – full feature-paritet med Anthropics native API, betalt via AWS-kontoen din. Ikke det samme som Amazon Bedrock. Her er hva forskjellen betyr i praksis.

12. mai 2026
68 visninger
4 minutter lesetid

Jan Sverre ser på hastighetstall for ExLlamaV3 DFlash på mørkt hjemmekontor med skjermgløde

ExLlamaV3 DFlash – spekulativ dekoding gir 2,5 ganger raskere lokal inferens

ExLlamaV3 DFlash gir opptil 2,51 ganger raskere lokal AI-inferens med spekulativ dekoding og n-gram-caching. Her er tallene og hva de betyr i praksis for deg som kjører modeller lokalt.

11. mai 2026
69 visninger
4 minutter lesetid

Jan Sverre i serverrom studerer DeepSeek V4 teknisk papir med FP4-kvantisering og MoE-arkitektur på holografisk skjerm

DeepSeek V4 full paper – FP4 QAT, CSA og stabilitetsmekanismene forklart

Det fullstendige DeepSeek V4-papiret er ute – og det er vesentlig tykkere enn april-forhåndsvisningen. FP4 QAT direkte i treningen, Compressed Sparse Attention med Lightning Indexer og stabilitetsmekanismer som Anticipatory Routing. Her er hva som faktisk er interessant.

11. mai 2026
64 visninger
5 minutter lesetid

AI-Modeller

RTX 5090 og lokal LLM – hva skjer med ytelse når du skrur ned strømmen?

DramaBox – den mest ekspressive TTS-modellen du kan kjøre selv

TML-Interaction-Small – Thinking Machines Labs modell for sanntids AI-samtale

MTP + TurboQuant på LLaMA.cpp – Qwen 27B til 34 tokens per sekund på MacBook

Ovis2.6-80B-A3B – multimodal AI med MoE-arkitektur og 64K kontekst

Luce DFlash og PFlash på AMD Strix Halo – 2,23x raskere lokal inferens med Qwen3.6-27B

Needle – 26M parameter modell distillerer Gemini tool calling til forbrukerhardware

Claude Platform on AWS – Anthropics nye enterprise-tilbud

ExLlamaV3 DFlash – spekulativ dekoding gir 2,5 ganger raskere lokal inferens

DeepSeek V4 full paper – FP4 QAT, CSA og stabilitetsmekanismene forklart

Glutenfri sitronkake – min beste oppskrift

Amazon droppet Sam Altman-filmen etter 50 milliarder til OpenAI – nå vil ingen ha den

Suno AI – 150 Låter Testet: Hva Funker og Hva Er Bortkastet Tid

Claude AI – pris, funksjoner og norsk guide (2026)

Suno AI Copyright 2026 – Opphavsrett og Rettigheter for AI-Musikk

Glutenfri sitronkake – min beste oppskrift

Kaffegrut i Hagen – Slik Bruker Du Det som Gjødsel og Skadedyrbekjemper

Sterk Chili Kaffe

Stekt Kylling i Airfryer