Qwen3 open weight er ute – og LocalLLaMA kaller det ny toppmodell

Innhold Vis

Alibaba har sluppet open weight-vektene til den nyeste oppdateringen av Qwen3 – og r/LocalLLaMA er ikke akkurat rolig. Modellene er lisensiert under Apache 2.0, kjører i Ollama, og byr på noe de fleste lokale modeller mangler: innebygget thinking mode som du kan skru av og på etter behov.

Jeg er skeptisk til kinesiske modeller, det har jeg sagt tidligere. Skeptisk – ikke fiendtlig. Og når noe faktisk er godt, er det ærligst å si det rett ut. Qwen3-serien har vist sterk ytelse siden Qwen 3.6 kom på OpenRouter i mars, og denne oppdateringen tar det et hakk videre.

Her er det som faktisk er nytt, hva du kan kjøre lokalt akkurat nå, og om det er verdt å teste.

Hva er Qwen3 og hvorfor snakker alle om det?

Qwen3 er Alibabas åpne språkmodell-serie. Den nyeste oppdateringen – som LocalLLaMA-fellesskapet omtaler som «the new king» – bringer med seg to viktige ting på en gang: open weight-tilgjengelighet og forbedret reasoning-ytelse på tvers av matematikk, koding og logikk.

Open weight betyr at du kan laste ned modellvektene, kjøre dem lokalt, og bruke dem kommersielt uten å betale Alibaba en krone. Apache 2.0-lisensen er blant de mest permissive som finnes i AI-verdenen – du kan ta disse vektene og bygge produkter på dem.

Det er verdt å minne om at Qwen-serien ikke er ny. Alibaba har levert solide modeller i over to år. Det som er nytt nå er kombinasjonen av størrelse, reasoning-modus og åpenhet – alt i én pakke som faktisk lar seg kjøre på vanlig hardware.

Oversikt over Qwen3 modellstørrelser fra 0.6B til 235B - grafisk fremstilling — Qwen3 finnes i størrelser fra 523 MB til 142 GB – noe for alle hardware-oppsett

Hvilke modellstørrelser finnes?

Serien dekker alt fra ultralett til seriøst tung. Her er hva som er tilgjengelig og hva du faktisk trenger av RAM for å kjøre dem:

Qwen3:0.6B (523 MB) – Prøver du å kjøre noe på en Raspberry Pi? Her er din kandidat.
Qwen3:4B (2,5 GB) – Kjører på de fleste datamaskiner. 256K kontekstvindu.
Qwen3:8B (5,2 GB) – Standard-valget for de fleste. Nyeste standardversjon i Ollama.
Qwen3:30B (19 GB) – MoE-variant (Mixture of Experts). Trenger dedikert GPU med god VRAM.
Qwen3:235B (142 GB) – Flaggskipet. Dette er server-territorium.

MoE-variantene (30B og 235B) er spesielle fordi de aktiverer bare en delmengde av parametrene per inference-kall. Det gjør dem raskere og mer effektive enn den rå parametertelling tilsier. En 30B MoE-modell oppfører seg ofte mer som en 8-14B tett modell i praksis – raskere, men med tilgang til bredere kunnskap.

Kontekstvinduet er 256 000 tokens som standard, og kan ifølge Qwens GitHub-repo utvides til 1 million tokens. Det betyr at du kan mate modellen med svært lange dokumenter, kode-repos eller samtalehistorikk uten å treffe taket.

Hva er thinking mode – og trenger du det?

Thinking mode er det LocalLLaMA-fellesskapet er mest begeistret for. Kort fortalt: modellen kan enten svare raskt og direkte (non-thinking mode), eller den kan «tenke seg om» steg for steg før den svarer (thinking mode).

Tanken er at du bruker thinking mode på oppgaver som krever det – matteproblemer, kompleks koding, logiske slutninger – og non-thinking mode til vanlig chat og skriveoppgaver der du ikke trenger at modellen graver seg ned i resonnering.

Det høres enkelt ut. I praksis betyr det at én modell kan erstatte to: en rask chat-modell og en tregere reasoning-modell. Særlig for de som kjører lokale AI-oppsett for personlig bruk er det et reelt plusspoeng å slippe å bytte mellom ulike modeller avhengig av oppgave.

Qwen3 støtter 100+ språk med sterk flerspråklig instruction following. Norsk er ikke oppgitt eksplisitt i dokumentasjonen, men Qwen-modellene har historisk fungert greit på skandinaviske språk – bedre enn mange europeiske alternativer.

Illustrasjon av Qwen3 thinking mode versus rask chat mode - to ulike hjerne-tilstander — Thinking mode for komplekse oppgaver, non-thinking mode for rask chat – én modell gjør begge deler

Hvordan kjører du Qwen3 lokalt?

Har du Ollama installert er det to kommandoer unna:

ollama pull qwen3:8b
ollama run qwen3:8b

Vil du ha flaggskipet og har maskin til det:

ollama pull qwen3:235b
ollama run qwen3:235b

Ollama-biblioteket lister 58 ulike varianter av Qwen3, inkludert kvantiserte versjoner for deg som har begrenset VRAM. Modellen er også tilgjengelig via Transformers, llama.cpp, vLLM, SGLang og TensorRT-LLM – så uansett hvilket oppsett du allerede har, er sjansen stor for at Qwen3 passer inn uten store endringer.

Merk at dette er en lokal modell, så dataen din forlater ikke maskinen din. Det er et reelt argument for mange – spesielt hvis du jobber med sensitiv tekst eller kode. Jeg har skrevet mer om om Ollama egentlig er nødvendig for lokale LLM-er, og tanken gjelder her: Ollama senker terskelen betraktelig, men er ikke det eneste alternativet.

Bør du bytte fra det du bruker nå?

For de som allerede bruker Claude, GPT-4 eller Gemini via API: nei, ikke ennå. Disse modellene er fortsatt sterkere på de fleste generelle oppgaver, og de har bedre verktøy-integrasjon ut av boksen. Qwen3 er ikke der – ennå.

For de som vil ha en lokal modell til koding, reasoning, eller personlig bruk: Qwen3:8B er verdt å teste. Den kjører på de fleste nyere maskiner med dedikert GPU, er gratis å bruke kommersielt, og byr på thinking mode som faktisk er nyttig.

Jeg er fortsatt skeptisk til kinesiske modeller generelt – ikke fordi ytelsen er dårlig, men fordi Alibaba er et kinesisk statsnært selskap og det er vanskelig å ha full oversikt over hva som er i treningsdataene. Apache 2.0-lisensen løser lisens-spørsmålet, men den løser ikke datakvalitets-spørsmålet.

Det finnes gode vestlige alternativer. Kinesiske modeller tar stadig flere benchmarks, men benchmarks og praktisk ytelse er ikke det samme. Test det selv. Bruk det som fungerer for deg. Apache 2.0 betyr at du kan gjøre nøyaktig det – uten å betale for privilegiet.

Qwen3 open weight er en seriøs utfordrer i open source-segmentet. At LocalLLaMA-fellesskapet er begeistret betyr noe – det er et krevende publikum som tester hardt og holder seg sjelden tilbake fra å si fra når noe er skuffende. Når de kaller noe «the new king» er det verdt å legge merke til.

Qwen3 open weight er ute – og LocalLLaMA kaller det ny toppmodell

Neste

FLUX.2 med referansebilder – styr stilen uten å trene LoRA

Skribent

Jan Sverre Bauge

tagger

Del artikkel

Innhold Vis

Hva er Qwen3 og hvorfor snakker alle om det?

Hvilke modellstørrelser finnes?

Hva er thinking mode – og trenger du det?

Hvordan kjører du Qwen3 lokalt?

Bør du bytte fra det du bruker nå?

Legg igjen en kommentar Avbryt svar

Claude AI – pris, funksjoner og norsk guide (2026)

Suno AI Copyright 2026 – Opphavsrett og Rettigheter for AI-Musikk

Google NotebookLM

GPT-5.2: Jeg testet OpenAIs nyeste modell – her er hva som faktisk fungerer

Glutenfri sitronkake – min beste oppskrift

Amazon droppet Sam Altman-filmen etter 50 milliarder til OpenAI – nå vil ingen ha den

Suno AI – 150 Låter Testet: Hva Funker og Hva Er Bortkastet Tid

Claude AI – pris, funksjoner og norsk guide (2026)

Suno AI Copyright 2026 – Opphavsrett og Rettigheter for AI-Musikk

Glutenfri sitronkake – min beste oppskrift

Kaffegrut i Hagen – Slik Bruker Du Det som Gjødsel og Skadedyrbekjemper

Sterk Chili Kaffe

Stekt Kylling i Airfryer

Qwen3 open weight er ute – og LocalLLaMA kaller det ny toppmodell

Neste

Skribent

tagger

Del artikkel

Innhold Vis

Hva er Qwen3 og hvorfor snakker alle om det?

Hvilke modellstørrelser finnes?

Hva er thinking mode – og trenger du det?

Hvordan kjører du Qwen3 lokalt?

Bør du bytte fra det du bruker nå?

Legg igjen en kommentar Avbryt svar

Meld deg på nyhetsbrevet

Du liker kanskje denne også