Jan Sverre utforsker Gemma-4-31B-it-DFlash og spekulativ dekoding med DFlash-teknikken

Gemma-4-31B-it-DFlash – spekulativ dekoding for Googles åpne modell

Gemma-4-31B-it-DFlash er en ny variant av Googles Gemma 4 31B utgitt av Z Lab, med DFlash spekulativ dekoding som kan gi opptil 8x raskere inferens. Llama.cpp-støtte er under utvikling via PR #22105.
Jan Sverre analyserer DeepSeek V4 Pro og Flash - kinesiske open source AI-modeller med 1,6 billiarder parametere

DeepSeek V4 Pro og Flash – 1,6 billiarder parametere og Huawei Ascend-støtte

DeepSeek V4 Pro og Flash er lansert med 1,6 billiarder parametere, MIT-lisens og støtte for Huawei Ascend-chips. Modellen er god men ikke lenger benchmarks-leder – her er hva du trenger å vite.
Jan Sverre utforsker IBM Granite 4.1 sine tre open source AI-modeller på 3B, 8B og 30B parametere

IBM Granite 4.1 – open source AI-modeller i 3B, 8B og 30B

IBM Granite 4.1 er tre nye open source AI-modeller (3B, 8B og 30B) med Apache 2.0-lisens, 512K tokens kontekstvindu og FP8-kvantisering. 8B-modellen matcher tidligere 32B MoE-modell – og kjører på vanlig gaming-GPU.
SenseNova-U1 modellen kombinerer bildeforståelse og generering i én samlet arkitektur uten VAE eller visuell encoder

SenseNova-U1 – nativ multimodal AI uten VAE og diffusion

SenseNova-U1 er en ny åpen kildekode-modell fra SenseTime som genererer bilder uten VAE, visuell encoder eller diffusion-prosess. NEO-Unify-arkitekturen behandler tekst og piksler nativt i én modell – og åpner for tekstrendering og infografikk der diffusion-modeller tradisjonelt mislykkes.
Mistral Medium 3.5 128B lansering - mann i hettegenser engasjert med ny kraftig AI-modell fra Frankrike

Mistral Medium 3.5 128B lansert – open weights, 256k kontekst og sterk kodeytelse

Mistral AI lanserte Medium 3.5 29. april 2026 – en 128 milliarder parameter tett modell med 256k kontekstvindu, open weights under modifisert MIT-lisens og sterk ytelse på koding og agentic oppgaver. API-pris $1,50/$7,50 per million tokens.
Jan Sverre i en moderne bil med Gemini AI-assistent aktivert på infotainmentskjermen

General Motors ruller Gemini ut til 4 millioner biler

General Motors ruller Google Gemini ut til rundt 4 millioner biler via over-the-air oppdatering. Årsmodell 2022 og nyere Cadillac, Chevrolet, Buick og GMC med Google Built-in er kvalifisert. Gemini erstatter Google Assistant og gir samtalebasert AI med tilgang til kjøretøydata, navigasjon og klimakontroll.
Jan Sverre undersøker FlashQLA - Qwens nye bibliotek for raskere lineær oppmerksomhet på GPU

FlashQLA – Qwen lanserer 2-3x raskere lineær attention-kjerner

FlashQLA er Qwens nye bibliotek for lineær attention-kjerner bygget på TileLang. Det leverer 2-3 ganger raskere forward-pass og 2 ganger raskere backward-pass på NVIDIA Hopper-GPU-er – og er rettet mot agentic AI på personlige enheter.
Jan Sverre leser om SXSW som brukte AI-verktøyet BrandShield til å fjerne kritiske Instagram-innlegg

SXSW brukte AI-verktøy til å fjerne kritiske Instagram-innlegg

SXSW brukte AI-verktøyet BrandShield til automatisk å fjerne Instagram-innlegg som kritiserte festivalen. Lovlig politisk ytring ble sensurert fordi algoritmen ikke skiller mellom varemerkebrudd og kritikk. EFF kaller det «pretty clearly over-enforcement.»
Mann som dykker ned i en digital pool av kode og AI-agenter - Poolside AI Laguna lansering

Poolside AI lanserer Laguna XS.2 og M.1 – spesialiserte agentic coding-modeller

Poolside AI lanserte 28. april 2026 sine to første offentlige modeller: Laguna M.1 (225B/23B aktive parametere) og Laguna XS.2 (33B/3B aktive, Apache 2.0). Begge er bygget for agentic coding og lange autonome kodingssessjoner – og begge er gratis via API og OpenRouter nå.
Jan Sverre utforsker Chaperone-Thinking-LQ-1.0, den medisinske AI-modellen som scorer 84% på legeeksamen-benchmarket MedQA og kjører lokalt på 20GB

Chaperone-Thinking-LQ-1.0 – medisinsk AI som scorer 84% på legeeksamen og kjører på 20GB

Chaperone-Thinking-LQ-1.0 er en open source medisinsk AI-modell basert på DeepSeek-R1-Distill-Qwen-32B, kvantisert til ~20GB via GPTQ og finjustert med QLoRA på medisinske korpus. Modellen scorer 84% på MedQA-benchmarket og kan kjøres lokalt på en RTX 3090 eller 4090.