Mars 2026 var en av de tetteste månedene for AI-lanseringer på lenge. Mens alle fulgte med på de store navnene – Claude, GPT, Gemini – skjedde det en haug med interessante ting i bakgrunnen som nesten druknet i støyen. NVIDIA slapp en modell som er 2,82 ganger raskere enn originalen. Meituan la ut et matematikk-bevis-monster på 560 milliarder parametere. LTX 2.3 lager 4K-video med lyd i ett enkelt pass.

Jeg har gått gjennom det som faktisk kom i mars, og plukket ut det jeg synes er verdt å vite om – ting som ikke fikk de store overskriftene, men som forteller noe interessant om retningen AI-utviklingen tar akkurat nå.

Her er en rask gjennomgang av det du kanskje gikk glipp av.

Hva er NVIDIA gpt-oss-puzzle-88B?

Den 26. mars lanserte NVIDIA noe litt uvanlig: gpt-oss-puzzle-88B, en versjon av OpenAIs gpt-oss-120B-modell som er slanket og optimalisert for å kjøre raskere – uten at kvaliteten forsvinner.

Tallet som er verdt å bite seg merke i: opptil 2,82 ganger raskere inferens på én enkelt H100 GPU. Det er ikke en ny, større modell. Det er den samme modellen, bare langt mer effektiv. NVIDIA brukte sitt eget Puzzle-rammeverk – en kombinasjon av heterogen MoE-pruning, selektiv window attention og FP8 KV-cache-kvantisering – og endte opp med en modell på 88 milliarder parametere som faktisk passer på én GPU.

Nøyaktighetsretensjon? Mellom 100,8 % og 108,2 % sammenlignet med originalmodellen – den er altså ikke bare like god, den er på noen benchmarks litt bedre.

Dette er interessant fordi det illustrerer noe som skjer mer og mer: inferens-optimalisering er blitt like viktig som selve treningen. Det er ikke lenger nok å ha den største modellen. Du må også klare å kjøre den fornuftig.

Nemotron-Cascade 2 – den lille som banket de store

NVIDIA slapp ikke bare én interessant ting i mars. Nemotron-Cascade 2 (30B totale parametere, 3B aktive) er en åpen MoE-modell bygget på Nemotron-Nano-V3, og den har noe å si for seg.

Gullmedalje-ytelse på både 2025 International Mathematical Olympiad og International Olympiad in Informatics. Med bare 3 milliarder aktive parametere per token.

Det er det som er poenget her: aktive parametere er det som faktisk brukes under kjøring. Å ha 30 milliarder totalt, men bare aktivere 3 milliarder per forespørsel, gjør modellen vesentlig rimeligere å kjøre i produksjon. Det finnes en uncensored-variant fra Dealignai på Hugging Face for de som vil eksperimentere uten sikkerhetsfiltre.

Sammenligning av NVIDIA gpt-oss-puzzle-88B optimalisert modell mot original gpt-oss-120B med 2,82 ganger raskere inferens
NVIDIA krympet OpenAIs gpt-oss-120B fra 120 til 88 milliarder parametere – og fikk den til å kjøre 2,82 ganger raskere på én enkelt H100.

LongCat-Flash-Prover – 560 milliarder parametere for matematikkbevis

Meituan LongCat er et kinesisk teknologiselskaps AI-lab, og 24. mars slapp de LongCat-Flash-Prover som åpen kildekode under MIT-lisens.

560 milliarder parametere. Spesialisert på formell matematikk og teorem-bevis i Lean4. Tre atomære evner: auto-formalisering, skissering og bevisføring.

Resultatet på MiniF2F-Test med Tool-Integrated Reasoning: 97,1 % pass rate med bare 72 inferensforsøk. Det er ny åpen kildekode-rekord blant bevis-modeller. ProverBench og PutnamBench gir henholdsvis 70,8 % og 41,5 %.

Jeg er ikke matematiker, og sannsynligvis er du heller ikke det. Men dette er likevel verdt å notere seg – formell matematikk og logisk bevisføring er blant de vanskeligste tingene å få AI til å gjøre riktig, og det faktum at en open source-modell nå sitter på toppen av dette feltet, sier noe om tempoet i åpen utvikling.

Qwen3.5-122B – 10 milliarder aktive av 122 totalt

Qwen3.5-122B-A10B fra Alibaba ble egentlig sluppet 24. februar, men det var mars det tok av på community-siden. MoE-arkitektur med 122 milliarder totale parametere og 10 milliarder aktive. Støtter opptil 262 144 tokens kontekst – utvidbar til over en million med YaRN-skalering.

Jeg er litt skeptisk til kinesiske modeller generelt, ikke av politiske grunner, men fordi det er vanskelig å vite nøyaktig hva de er trent på og med hvilke restriksjoner. Men teknisk sett er dette et imponerende stykke arbeid. 201 språk og dialekter, multimodal kapabilitet (tekst, bilder, video), agentic coding. Tilgjengelig på OpenRouter for de som vil teste.

LTX 2.3 – åpen 4K-video med lyd i ett pass

5. mars lanserte Lightricks LTX 2.3 – en 22-milliarder-parameter Diffusion Transformer-modell som genererer synkronisert video og lyd i ett enkelt pass, opp til 4K ved 50 FPS og inntil 20 sekunders varighet.

Jeg har testet LTX-modellene en del, og 2.3 er et ordentlig steg opp. Rebuild av VAE gir skarpere teksturer og kantdetaljer. Den nye gated attention text connector gjør at promptene faktisk følges bedre. Portrait-modus (1080×1920) er nativt støttet, noe som er nyttig for mobilformat-produksjon.

Sammenlignet med Wan 2.2 (Alibaba) er LTX 2.3 raskere og mer stabil for iterasjoner, mens Wan 2.2 gir mer cinematisk kontroll med kamerabevegelsesstier. Helios fra Peking University, ByteDance og Canva er en annen, med evne til å generere hele 60 sekunder på én H100 – men LTX 2.3 vinner på bildekvalitet og integrert lyd.

Åpen kildekode AI-videogenerering med LTX 2.3 som produserer 4K video med synkronisert lyd i ett enkelt pass
LTX 2.3 fra Lightricks: 4K ved 50 FPS, inntil 20 sekunder, med synkronisert lyd – alt i ett enkelt inferenspas, og gratis tilgjengelig.

Andre ting som kom i mars du bør kjenne til

En rask gjennomgang av det andre som skjedde i mars uten at det nødvendigvis fikk stor oppmerksomhet:

  • Mistral Small 4 (17. mars) – 119 milliarder parametere, MoE-arkitektur, multimodal og reasoning i én og samme modell. Konkurrerer direkte med Qwen3.5 i midtre prissegment.
  • NemoClaw (17. mars) – NVIDIAs åpne inferens-ruter som dirigerer forespørsler mellom lokale GPUer og sky-modeller automatisk. Interessant for de som kjører hybrid oppsett.
  • DeerFlow 2.0 (23. mars) – ByteDances multi-agent-rammeverk med isolerte agentmiljøer. Open source, og faktisk brukbart for komplekse workflows.
  • Qwen3.5-Omni (31. mars) – Alibabas full omnimodal modell. 10+ timer lyd, 400+ sekunder video ved 1 FPS. Støtter talegjenkjenning på 113 språk. Imponerende om spec-listene stemmer.
  • Ray Data LLM (25. mars) – Anyscales batch-inferens-bibliotek som oppnår 2x gjennomstrømming over vLLM. Ikke et brukerverktøy, men viktig for produksjonsdrift.

Claude Opus 4.6 og Sonnet 4.6 fikk full 1 million tokens kontekstvindu til standardpris 16. mars – uten pristillegg. Det er mer merkbart enn det høres ut som, særlig for de som jobber med lange dokumenter eller store kodebaser. Claude Mythos kom 30. mars med ytterligere forbedringer på koding, resonnering og cybersikkerhet.

Mars ble også måneden da inferens-optimalisering endelig fikk fortjent oppmerksomhet. Det er ikke lenger nok å trene verdens største modell. Utfordringen er å gjøre den rask og billig nok til å faktisk bruke. TurboQuant fra Google (25. mars), som jeg skrev om tidligere denne uken, er et annet eksempel på det samme tankegodset – TurboQuants tilnærming til KV-cache-komprimering peker i samme retning som det NVIDIA gjør med Puzzle-rammeverket.

Hva tenker du – er det noe fra mars du synes fikk for lite oppmerksomhet? Gi meg en tilbakemelding i kommentarfeltet.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

Meld deg på nyhetsbrevet

Få oppdateringer om AI nyhetene rett i inboxen!

Du liker kanskje denne også
Jan Sverre med headphones og lydmikser i boardroom-møte med forvirrede executives

Suno AI Copyright 2026 – Opphavsrett og Rettigheter for AI-Musikk

Kan du tjene penger på Suno-musikk? Her er en praktisk gjennomgang av rettigheter, risiko og hva du bør avklare før publisering.
Jan Sverre tester GPT-5.2 ved en transparent OpenAI GPT-skjerm

GPT-5.2: Jeg testet OpenAIs nyeste modell – her er hva som faktisk fungerer

GPT-5.2 er ute med tre versjoner. Jeg har testet thinking-modellen, sammenlignet med 5.1, og funnet ut hva som faktisk er bedre. Her er mine erfaringer.
Jan Sverre profesjonelt fotograf-kvalitet portrett AI-generert bildegenerering

Google NotebookLM

Google NotebookLM er en AI-assistent som gjør dokumenter om til interaktive samtaler, studieguidere og podcasts på norsk. Nå drevet av Gemini 3 Pro med nye funksjoner som infographics, slide decks og Deep Research. Komplett guide til gratis vs. Plus-versjon.
Jan Sverre Bauge sitter foran dataskjermer med AI-agent dashboards og meldingsapper i full aktivitet

Hva Er ClawdBot? Open-Source AI-Agent med Sikkerhetsproblemer

Clawdbot er open-source AI-agenten alle snakker om. Slik kommer du i gang – og slik sikrer du deg mot alvorlige sårbarheter.