Innhold Vis
Alibaba har sluppet open weight-vektene til den nyeste oppdateringen av Qwen3 – og r/LocalLLaMA er ikke akkurat rolig. Modellene er lisensiert under Apache 2.0, kjører i Ollama, og byr på noe de fleste lokale modeller mangler: innebygget thinking mode som du kan skru av og på etter behov.
Jeg er skeptisk til kinesiske modeller, det har jeg sagt tidligere. Skeptisk – ikke fiendtlig. Og når noe faktisk er godt, er det ærligst å si det rett ut. Qwen3-serien har vist sterk ytelse siden Qwen 3.6 kom på OpenRouter i mars, og denne oppdateringen tar det et hakk videre.
Her er det som faktisk er nytt, hva du kan kjøre lokalt akkurat nå, og om det er verdt å teste.
Hva er Qwen3 og hvorfor snakker alle om det?
Qwen3 er Alibabas åpne språkmodell-serie. Den nyeste oppdateringen – som LocalLLaMA-fellesskapet omtaler som «the new king» – bringer med seg to viktige ting på en gang: open weight-tilgjengelighet og forbedret reasoning-ytelse på tvers av matematikk, koding og logikk.
Open weight betyr at du kan laste ned modellvektene, kjøre dem lokalt, og bruke dem kommersielt uten å betale Alibaba en krone. Apache 2.0-lisensen er blant de mest permissive som finnes i AI-verdenen – du kan ta disse vektene og bygge produkter på dem.
Det er verdt å minne om at Qwen-serien ikke er ny. Alibaba har levert solide modeller i over to år. Det som er nytt nå er kombinasjonen av størrelse, reasoning-modus og åpenhet – alt i én pakke som faktisk lar seg kjøre på vanlig hardware.

Hvilke modellstørrelser finnes?
Serien dekker alt fra ultralett til seriøst tung. Her er hva som er tilgjengelig og hva du faktisk trenger av RAM for å kjøre dem:
- Qwen3:0.6B (523 MB) – Prøver du å kjøre noe på en Raspberry Pi? Her er din kandidat.
- Qwen3:4B (2,5 GB) – Kjører på de fleste datamaskiner. 256K kontekstvindu.
- Qwen3:8B (5,2 GB) – Standard-valget for de fleste. Nyeste standardversjon i Ollama.
- Qwen3:30B (19 GB) – MoE-variant (Mixture of Experts). Trenger dedikert GPU med god VRAM.
- Qwen3:235B (142 GB) – Flaggskipet. Dette er server-territorium.
MoE-variantene (30B og 235B) er spesielle fordi de aktiverer bare en delmengde av parametrene per inference-kall. Det gjør dem raskere og mer effektive enn den rå parametertelling tilsier. En 30B MoE-modell oppfører seg ofte mer som en 8-14B tett modell i praksis – raskere, men med tilgang til bredere kunnskap.
Kontekstvinduet er 256 000 tokens som standard, og kan ifølge Qwens GitHub-repo utvides til 1 million tokens. Det betyr at du kan mate modellen med svært lange dokumenter, kode-repos eller samtalehistorikk uten å treffe taket.
Hva er thinking mode – og trenger du det?
Thinking mode er det LocalLLaMA-fellesskapet er mest begeistret for. Kort fortalt: modellen kan enten svare raskt og direkte (non-thinking mode), eller den kan «tenke seg om» steg for steg før den svarer (thinking mode).
Tanken er at du bruker thinking mode på oppgaver som krever det – matteproblemer, kompleks koding, logiske slutninger – og non-thinking mode til vanlig chat og skriveoppgaver der du ikke trenger at modellen graver seg ned i resonnering.
Det høres enkelt ut. I praksis betyr det at én modell kan erstatte to: en rask chat-modell og en tregere reasoning-modell. Særlig for de som kjører lokale AI-oppsett for personlig bruk er det et reelt plusspoeng å slippe å bytte mellom ulike modeller avhengig av oppgave.
Qwen3 støtter 100+ språk med sterk flerspråklig instruction following. Norsk er ikke oppgitt eksplisitt i dokumentasjonen, men Qwen-modellene har historisk fungert greit på skandinaviske språk – bedre enn mange europeiske alternativer.

Hvordan kjører du Qwen3 lokalt?
Har du Ollama installert er det to kommandoer unna:
ollama pull qwen3:8b
ollama run qwen3:8b
Vil du ha flaggskipet og har maskin til det:
ollama pull qwen3:235b
ollama run qwen3:235b
Ollama-biblioteket lister 58 ulike varianter av Qwen3, inkludert kvantiserte versjoner for deg som har begrenset VRAM. Modellen er også tilgjengelig via Transformers, llama.cpp, vLLM, SGLang og TensorRT-LLM – så uansett hvilket oppsett du allerede har, er sjansen stor for at Qwen3 passer inn uten store endringer.
Merk at dette er en lokal modell, så dataen din forlater ikke maskinen din. Det er et reelt argument for mange – spesielt hvis du jobber med sensitiv tekst eller kode. Jeg har skrevet mer om om Ollama egentlig er nødvendig for lokale LLM-er, og tanken gjelder her: Ollama senker terskelen betraktelig, men er ikke det eneste alternativet.
Bør du bytte fra det du bruker nå?
For de som allerede bruker Claude, GPT-4 eller Gemini via API: nei, ikke ennå. Disse modellene er fortsatt sterkere på de fleste generelle oppgaver, og de har bedre verktøy-integrasjon ut av boksen. Qwen3 er ikke der – ennå.
For de som vil ha en lokal modell til koding, reasoning, eller personlig bruk: Qwen3:8B er verdt å teste. Den kjører på de fleste nyere maskiner med dedikert GPU, er gratis å bruke kommersielt, og byr på thinking mode som faktisk er nyttig.
Jeg er fortsatt skeptisk til kinesiske modeller generelt – ikke fordi ytelsen er dårlig, men fordi Alibaba er et kinesisk statsnært selskap og det er vanskelig å ha full oversikt over hva som er i treningsdataene. Apache 2.0-lisensen løser lisens-spørsmålet, men den løser ikke datakvalitets-spørsmålet.
Det finnes gode vestlige alternativer. Kinesiske modeller tar stadig flere benchmarks, men benchmarks og praktisk ytelse er ikke det samme. Test det selv. Bruk det som fungerer for deg. Apache 2.0 betyr at du kan gjøre nøyaktig det – uten å betale for privilegiet.
Qwen3 open weight er en seriøs utfordrer i open source-segmentet. At LocalLLaMA-fellesskapet er begeistret betyr noe – det er et krevende publikum som tester hardt og holder seg sjelden tilbake fra å si fra når noe er skuffende. Når de kaller noe «the new king» er det verdt å legge merke til.