Qwen 3.5 4B løser abstraksjonstesten som GPT-4 feilet på

Innhold Vis

Qwen 3.5 4B er den første lille open source-modellen som klarer en abstraksjon du tenker er triviell — men som har feilet GPT-4, Gemini 2.5 Flash og nesten alt annet. En bruker på Reddit-forumet LocalLLaMA la nylig ut et enkelt mønstergjenkjenningstest og fikk et resultat som overrasket mange: en 4 milliarder parameter-modell løste noe som modeller på 200+ milliarder parametere strupler med.

Testen er enkel å beskrive, men viser seg å være svært vanskelig å løse for de aller fleste modeller. Det handler om abstraksjon — evnen til å se mønsteret bak tallene og tegnene, ikke bare gjengi dem. Og Qwen 3.5 4B, som veier inn på under en tiendedel av mange av modellene som feilet, klarte det.

Her er hva som faktisk skjedde, hvilke modeller som feilet, og hva dette egentlig sier om retningen AI-utvikling tar.

Hva er abstraksjonstesten?

Oppsettet er elegant i sin enkelhet. Du får tre eksempler:

11118888888855 → 118885
79999775555 → 99755
AAABBBYUDD → ?

Svaret er ABYUD — men for å komme dit må modellen forstå det underliggende prinsippet: ta én forekomst av hvert unike tegn, i den rekkefølgen de første gang dukker opp. Det er ikke et spørsmål om å telle, sortere eller finne den vanligste. Det er ren abstraksjon — evnen til å løfte blikket fra de konkrete tegnene og se strukturen bak.

Mange modeller prøver å telle forekomster, finne mønstre i lengden, eller bare gjette. Svært få klarer å abstrahere seg frem til det generelle prinsippet.

Hvilke modeller feilet?

Listen over modeller som ikke klarte testen er ganske imponerende — på den triste måten. Ifølge brukeren som kjørte testene feilet disse:

GPT-4
GPT-4o
GPT-4.1
o1-mini
o3-mini
o4-mini
Store open source-modeller på 20B og 120B parametere
Gemini 2.5 Flash
Alle Qwen 2.5-størrelser
Qwen 3.0 — unntatt den enorme 235B-varianten med aktivt ekspertoppsett

Merk at dette ikke er ett kjøring per modell. Stokastisk sampling betyr at en modell kan klare det en gang av ti. Men den konsistente observasjonen er at de aller fleste store og kjente modeller svikter her når de kjøres gjentatte ganger.

Hvem klarte det?

Modeller som konsekvent løste testen:

o1 — OpenAIs første store reasoning-modell, kjent for grundig indre monolog
o3 — OpenAIs sterkeste reasoning-modell per i dag
Qwen 3.5 4B — den overraskende vinneren blant småmodellene
Claude Sonnet 4.5 og Claude Opus — ifølge kommentarer i tråden

At o1 og o3 klarer det er ikke overraskende — de er designet for nettopp denne typen dypere resonering. At Qwen 3.5 4B klarer det, og at Qwen 3.5 235B også klarer det, men at ingenting midt imellom gjør det konsekvent, er det merkelige.

Illustrasjon som sammenligner AI-modellstørrelser der liten 4B-modell slår store 120B-modeller på abstraksjon — Størrelse er ikke alt: Qwen 3.5 4B på 4 milliarder parametere slår modeller med 120 milliarder parametere på abstraksjonsoppgaver.

Hva gjør Qwen 3.5 4B annerledes?

Alibabas Qwen 3.5-serie representerer en ny generasjon av effektive modeller fra Kina. Qwen 3.5 4B er en liten modell — egnet for lokal kjøring på en vanlig PC eller til og med en bærbar med anstendig RAM. Den er tilgjengelig via Ollama og Hugging Face, og den kjøres raskt.

Det som skiller Qwen 3.5-generasjonen fra forgjengeren er bedre chain-of-thought-trening. Modellen er lært opp til å resonnere steg for steg, og det ser ut til å gi en kvalitativ forskjell på nettopp denne typen abstraksjonsproblemer. Det er ikke bare «mer data» — det er en annen tilnærming til tenking.

Jeg har tidligere skrevet om Qwen Image Edit 2511 fra Alibaba — og det er verdt å merke seg at Alibaba nå leverer konkurransedyktige modeller på tvers av veldig ulike domener. Reasoning er ett. Bilderedigering er et annet. Det er ikke en one-trick-pony.

Er dette et godt benchmark?

Noen vil si at én test ikke er nok. Det er riktig. Og det er verdt å lese artikkelen om spesialpedagogen som vurderte AI med 600 kriterier — mye standardisert benchmarking fanger ikke det som faktisk betyr noe i praksis.

Men denne abstraksjonstesten har noe interessant ved seg: den tester ikke kunnskap, ikke fakta, ikke matte i tradisjonell forstand. Den tester om modellen kan løfte seg over de konkrete dataene og se strukturen. Det er en evne som er svært relevant for kompleks resonnering, kodeforståelse og logisk deduksjon.

At store modeller på 120 milliarder parametere feiler mens en 4 milliarder parameter-modell klarer det, sier noe om at størrelse alene ikke er svaret. Treningsstrategi og arkitekturvalg betyr stadig mer.

Abstrakt illustrasjon av mønstergjenkjenning der mange like tegn forenkles til én representant — Abstraksjonsevne er kjernen i det Qwen 3.5 4B mestrer: se strukturen bak dataene, ikke bare gjenta dem.

Hva betyr dette i praksis?

For deg som kjører modeller lokalt: Qwen 3.5 4B er verdt å prøve. Den er liten nok til å kjøre på de fleste moderne PCer, og dette funnet tyder på at den resonerer bedre enn størrelsen skulle tilsi. Har du en RTX 3060 eller bedre, kan du kjøre den direkte i Ollama.

For deg som er nysgjerrig på AI-utvikling generelt: dette er et eksempel på at den lille/store-dikotomien er i ferd med å miste mye av sin forklaringskraft. Det er ikke lenger åpenbart at «stor = bedre». Spesialiserte treningsmetoder kan gi en liten modell egenskaper som store generalistmodeller mangler.

Mercury 2, som jeg dekket for noen dager siden, er et annet eksempel på dette — en ny arkitektur som konkurrerer med mye større modeller på reasoning-oppgaver. Trenden er tydelig: effektivitet er det nye kappeløpet.

Konklusjon

Qwen 3.5 4B har klart noe som overrasket mange i LocalLLaMA-miljøet: løse et abstraksjonsproblem som GPT-4, Gemini 2.5 Flash og en lang rekke store modeller konsekvent feiler på. Det er ikke et vanntett bevis på at modellen er best på alt — men det er et sterkt signal om at Alibabas nye treningsmetoder gir resultater som ikke kan ignoreres.

En 4 milliarder parameter open source-modell som slår GPT-4 på abstraksjon. Det hadde vært utenkelig for to år siden. Nå er det bare en mandagsnyhet fra LocalLLaMA.

3 kommentarer

Tilbaketråkk: Qwen 3.6 på OpenRouter – 1 million token kontekst og gratis preview – Jan Sverre Bauge
Tilbaketråkk: Darwin-35B-A3B-Opus – barnet som overgikk begge foreldrene – Jan Sverre Bauge
Tilbaketråkk: Qwen3.6-Plus – Alibabas nye modell med 1 million token kontekst – Jan Sverre Bauge

Qwen 3.5 4B løser abstraksjonstesten som GPT-4 feilet på

Neste

Fine-tunede Qwen3-modeller slår GPT-5, Claude og Gemini på smale oppgaver

Skribent

Jan Sverre Bauge

tagger

Del artikkel

Innhold Vis

Hva er abstraksjonstesten?

Hvilke modeller feilet?

Hvem klarte det?

Hva gjør Qwen 3.5 4B annerledes?

Er dette et godt benchmark?

Hva betyr dette i praksis?

Konklusjon

3 kommentarer

Legg igjen en kommentar Avbryt svar

Suno AI Copyright 2026 – Opphavsrett og Rettigheter for AI-Musikk

Claude AI – pris, funksjoner og norsk guide (2026)

GPT-5.2: Jeg testet OpenAIs nyeste modell – her er hva som faktisk fungerer

Google NotebookLM

Afroman vant – politiet krevde 4 millioner, juryen ga dem null

PewDiePie AI Council – Da Supreme Leader ble forrÅdt av sine egne

Suno AI – 150 Låter Testet: Hva Funker og Hva Er Bortkastet Tid

Suno AI Copyright 2026 – Opphavsrett og Rettigheter for AI-Musikk

Claude AI – pris, funksjoner og norsk guide (2026)

Kaffegrut i Hagen – Slik Bruker Du Det som Gjødsel og Skadedyrbekjemper

Sterk Chili Kaffe

Stekt Kylling i Airfryer

Kaffekaramell

Qwen 3.5 4B løser abstraksjonstesten som GPT-4 feilet på

Neste

Skribent

tagger

Del artikkel

Innhold Vis

Hva er abstraksjonstesten?

Hvilke modeller feilet?

Hvem klarte det?

Hva gjør Qwen 3.5 4B annerledes?

Er dette et godt benchmark?

Hva betyr dette i praksis?

Konklusjon

3 kommentarer

Legg igjen en kommentar Avbryt svar

Meld deg på nyhetsbrevet

Du liker kanskje denne også