Alibaba har sluppet open weight-vektene til den nyeste oppdateringen av Qwen3 – og r/LocalLLaMA er ikke akkurat rolig. Modellene er lisensiert under Apache 2.0, kjører i Ollama, og byr på noe de fleste lokale modeller mangler: innebygget thinking mode som du kan skru av og på etter behov.

Jeg er skeptisk til kinesiske modeller, det har jeg sagt tidligere. Skeptisk – ikke fiendtlig. Og når noe faktisk er godt, er det ærligst å si det rett ut. Qwen3-serien har vist sterk ytelse siden Qwen 3.6 kom på OpenRouter i mars, og denne oppdateringen tar det et hakk videre.

Her er det som faktisk er nytt, hva du kan kjøre lokalt akkurat nå, og om det er verdt å teste.

Hva er Qwen3 og hvorfor snakker alle om det?

Qwen3 er Alibabas åpne språkmodell-serie. Den nyeste oppdateringen – som LocalLLaMA-fellesskapet omtaler som «the new king» – bringer med seg to viktige ting på en gang: open weight-tilgjengelighet og forbedret reasoning-ytelse på tvers av matematikk, koding og logikk.

Open weight betyr at du kan laste ned modellvektene, kjøre dem lokalt, og bruke dem kommersielt uten å betale Alibaba en krone. Apache 2.0-lisensen er blant de mest permissive som finnes i AI-verdenen – du kan ta disse vektene og bygge produkter på dem.

Det er verdt å minne om at Qwen-serien ikke er ny. Alibaba har levert solide modeller i over to år. Det som er nytt nå er kombinasjonen av størrelse, reasoning-modus og åpenhet – alt i én pakke som faktisk lar seg kjøre på vanlig hardware.

Oversikt over Qwen3 modellstørrelser fra 0.6B til 235B - grafisk fremstilling
Qwen3 finnes i størrelser fra 523 MB til 142 GB – noe for alle hardware-oppsett

Hvilke modellstørrelser finnes?

Serien dekker alt fra ultralett til seriøst tung. Her er hva som er tilgjengelig og hva du faktisk trenger av RAM for å kjøre dem:

  • Qwen3:0.6B (523 MB) – Prøver du å kjøre noe på en Raspberry Pi? Her er din kandidat.
  • Qwen3:4B (2,5 GB) – Kjører på de fleste datamaskiner. 256K kontekstvindu.
  • Qwen3:8B (5,2 GB) – Standard-valget for de fleste. Nyeste standardversjon i Ollama.
  • Qwen3:30B (19 GB) – MoE-variant (Mixture of Experts). Trenger dedikert GPU med god VRAM.
  • Qwen3:235B (142 GB) – Flaggskipet. Dette er server-territorium.

MoE-variantene (30B og 235B) er spesielle fordi de aktiverer bare en delmengde av parametrene per inference-kall. Det gjør dem raskere og mer effektive enn den rå parametertelling tilsier. En 30B MoE-modell oppfører seg ofte mer som en 8-14B tett modell i praksis – raskere, men med tilgang til bredere kunnskap.

Kontekstvinduet er 256 000 tokens som standard, og kan ifølge Qwens GitHub-repo utvides til 1 million tokens. Det betyr at du kan mate modellen med svært lange dokumenter, kode-repos eller samtalehistorikk uten å treffe taket.

Hva er thinking mode – og trenger du det?

Thinking mode er det LocalLLaMA-fellesskapet er mest begeistret for. Kort fortalt: modellen kan enten svare raskt og direkte (non-thinking mode), eller den kan «tenke seg om» steg for steg før den svarer (thinking mode).

Tanken er at du bruker thinking mode på oppgaver som krever det – matteproblemer, kompleks koding, logiske slutninger – og non-thinking mode til vanlig chat og skriveoppgaver der du ikke trenger at modellen graver seg ned i resonnering.

Det høres enkelt ut. I praksis betyr det at én modell kan erstatte to: en rask chat-modell og en tregere reasoning-modell. Særlig for de som kjører lokale AI-oppsett for personlig bruk er det et reelt plusspoeng å slippe å bytte mellom ulike modeller avhengig av oppgave.

Qwen3 støtter 100+ språk med sterk flerspråklig instruction following. Norsk er ikke oppgitt eksplisitt i dokumentasjonen, men Qwen-modellene har historisk fungert greit på skandinaviske språk – bedre enn mange europeiske alternativer.

Illustrasjon av Qwen3 thinking mode versus rask chat mode - to ulike hjerne-tilstander
Thinking mode for komplekse oppgaver, non-thinking mode for rask chat – én modell gjør begge deler

Hvordan kjører du Qwen3 lokalt?

Har du Ollama installert er det to kommandoer unna:

ollama pull qwen3:8b
ollama run qwen3:8b

Vil du ha flaggskipet og har maskin til det:

ollama pull qwen3:235b
ollama run qwen3:235b

Ollama-biblioteket lister 58 ulike varianter av Qwen3, inkludert kvantiserte versjoner for deg som har begrenset VRAM. Modellen er også tilgjengelig via Transformers, llama.cpp, vLLM, SGLang og TensorRT-LLM – så uansett hvilket oppsett du allerede har, er sjansen stor for at Qwen3 passer inn uten store endringer.

Merk at dette er en lokal modell, så dataen din forlater ikke maskinen din. Det er et reelt argument for mange – spesielt hvis du jobber med sensitiv tekst eller kode. Jeg har skrevet mer om om Ollama egentlig er nødvendig for lokale LLM-er, og tanken gjelder her: Ollama senker terskelen betraktelig, men er ikke det eneste alternativet.

Bør du bytte fra det du bruker nå?

For de som allerede bruker Claude, GPT-4 eller Gemini via API: nei, ikke ennå. Disse modellene er fortsatt sterkere på de fleste generelle oppgaver, og de har bedre verktøy-integrasjon ut av boksen. Qwen3 er ikke der – ennå.

For de som vil ha en lokal modell til koding, reasoning, eller personlig bruk: Qwen3:8B er verdt å teste. Den kjører på de fleste nyere maskiner med dedikert GPU, er gratis å bruke kommersielt, og byr på thinking mode som faktisk er nyttig.

Jeg er fortsatt skeptisk til kinesiske modeller generelt – ikke fordi ytelsen er dårlig, men fordi Alibaba er et kinesisk statsnært selskap og det er vanskelig å ha full oversikt over hva som er i treningsdataene. Apache 2.0-lisensen løser lisens-spørsmålet, men den løser ikke datakvalitets-spørsmålet.

Det finnes gode vestlige alternativer. Kinesiske modeller tar stadig flere benchmarks, men benchmarks og praktisk ytelse er ikke det samme. Test det selv. Bruk det som fungerer for deg. Apache 2.0 betyr at du kan gjøre nøyaktig det – uten å betale for privilegiet.

Qwen3 open weight er en seriøs utfordrer i open source-segmentet. At LocalLLaMA-fellesskapet er begeistret betyr noe – det er et krevende publikum som tester hardt og holder seg sjelden tilbake fra å si fra når noe er skuffende. Når de kaller noe «the new king» er det verdt å legge merke til.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

Meld deg på nyhetsbrevet

Få oppdateringer om AI nyhetene rett i inboxen!

Du liker kanskje denne også
Jan Sverre styrer et digitalt kontrollpanel omgitt av Claude AI-symboler og glødende lysstriper i et mørkt rom

Claude AI – pris, funksjoner og norsk guide (2026)

Alt om Claude AI i 2026 – priser i norske kroner, Claude Pro vs Max, Claude Code, og ærlig sammenligning med ChatGPT. Komplett norsk guide fra en som bruker Claude daglig.
Jan Sverre med headphones og lydmikser i boardroom-møte med forvirrede executives

Suno AI Copyright 2026 – Opphavsrett og Rettigheter for AI-Musikk

Kan du tjene penger på Suno-musikk? Her er en praktisk gjennomgang av rettigheter, risiko og hva du bør avklare før publisering.
Jan Sverre profesjonelt fotograf-kvalitet portrett AI-generert bildegenerering

Google NotebookLM

Google NotebookLM er en AI-assistent som gjør dokumenter om til interaktive samtaler, studieguidere og podcasts på norsk. Nå drevet av Gemini 3 Pro med nye funksjoner som infographics, slide decks og Deep Research. Komplett guide til gratis vs. Plus-versjon.
Jan Sverre tester GPT-5.2 ved en transparent OpenAI GPT-skjerm

GPT-5.2: Jeg testet OpenAIs nyeste modell – her er hva som faktisk fungerer

GPT-5.2 er ute med tre versjoner. Jeg har testet thinking-modellen, sammenlignet med 5.1, og funnet ut hva som faktisk er bedre. Her er mine erfaringer.