Qwen 3.5 4B er den første lille open source-modellen som klarer en abstraksjon du tenker er triviell — men som har feilet GPT-4, Gemini 2.5 Flash og nesten alt annet. En bruker på Reddit-forumet LocalLLaMA la nylig ut et enkelt mønstergjenkjenningstest og fikk et resultat som overrasket mange: en 4 milliarder parameter-modell løste noe som modeller på 200+ milliarder parametere strupler med.

Testen er enkel å beskrive, men viser seg å være svært vanskelig å løse for de aller fleste modeller. Det handler om abstraksjon — evnen til å se mønsteret bak tallene og tegnene, ikke bare gjengi dem. Og Qwen 3.5 4B, som veier inn på under en tiendedel av mange av modellene som feilet, klarte det.

Her er hva som faktisk skjedde, hvilke modeller som feilet, og hva dette egentlig sier om retningen AI-utvikling tar.

Hva er abstraksjonstesten?

Oppsettet er elegant i sin enkelhet. Du får tre eksempler:

  • 11118888888855118885
  • 7999977555599755
  • AAABBBYUDD → ?

Svaret er ABYUD — men for å komme dit må modellen forstå det underliggende prinsippet: ta én forekomst av hvert unike tegn, i den rekkefølgen de første gang dukker opp. Det er ikke et spørsmål om å telle, sortere eller finne den vanligste. Det er ren abstraksjon — evnen til å løfte blikket fra de konkrete tegnene og se strukturen bak.

Mange modeller prøver å telle forekomster, finne mønstre i lengden, eller bare gjette. Svært få klarer å abstrahere seg frem til det generelle prinsippet.

Hvilke modeller feilet?

Listen over modeller som ikke klarte testen er ganske imponerende — på den triste måten. Ifølge brukeren som kjørte testene feilet disse:

  • GPT-4
  • GPT-4o
  • GPT-4.1
  • o1-mini
  • o3-mini
  • o4-mini
  • Store open source-modeller på 20B og 120B parametere
  • Gemini 2.5 Flash
  • Alle Qwen 2.5-størrelser
  • Qwen 3.0 — unntatt den enorme 235B-varianten med aktivt ekspertoppsett

Merk at dette ikke er ett kjøring per modell. Stokastisk sampling betyr at en modell kan klare det en gang av ti. Men den konsistente observasjonen er at de aller fleste store og kjente modeller svikter her når de kjøres gjentatte ganger.

Hvem klarte det?

Modeller som konsekvent løste testen:

  • o1 — OpenAIs første store reasoning-modell, kjent for grundig indre monolog
  • o3 — OpenAIs sterkeste reasoning-modell per i dag
  • Qwen 3.5 4B — den overraskende vinneren blant småmodellene
  • Claude Sonnet 4.5 og Claude Opus — ifølge kommentarer i tråden

At o1 og o3 klarer det er ikke overraskende — de er designet for nettopp denne typen dypere resonering. At Qwen 3.5 4B klarer det, og at Qwen 3.5 235B også klarer det, men at ingenting midt imellom gjør det konsekvent, er det merkelige.

Illustrasjon som sammenligner AI-modellstørrelser der liten 4B-modell slår store 120B-modeller på abstraksjon
Størrelse er ikke alt: Qwen 3.5 4B på 4 milliarder parametere slår modeller med 120 milliarder parametere på abstraksjonsoppgaver.

Hva gjør Qwen 3.5 4B annerledes?

Alibabas Qwen 3.5-serie representerer en ny generasjon av effektive modeller fra Kina. Qwen 3.5 4B er en liten modell — egnet for lokal kjøring på en vanlig PC eller til og med en bærbar med anstendig RAM. Den er tilgjengelig via Ollama og Hugging Face, og den kjøres raskt.

Det som skiller Qwen 3.5-generasjonen fra forgjengeren er bedre chain-of-thought-trening. Modellen er lært opp til å resonnere steg for steg, og det ser ut til å gi en kvalitativ forskjell på nettopp denne typen abstraksjonsproblemer. Det er ikke bare «mer data» — det er en annen tilnærming til tenking.

Jeg har tidligere skrevet om Qwen Image Edit 2511 fra Alibaba — og det er verdt å merke seg at Alibaba nå leverer konkurransedyktige modeller på tvers av veldig ulike domener. Reasoning er ett. Bilderedigering er et annet. Det er ikke en one-trick-pony.

Er dette et godt benchmark?

Noen vil si at én test ikke er nok. Det er riktig. Og det er verdt å lese artikkelen om spesialpedagogen som vurderte AI med 600 kriterier — mye standardisert benchmarking fanger ikke det som faktisk betyr noe i praksis.

Men denne abstraksjonstesten har noe interessant ved seg: den tester ikke kunnskap, ikke fakta, ikke matte i tradisjonell forstand. Den tester om modellen kan løfte seg over de konkrete dataene og se strukturen. Det er en evne som er svært relevant for kompleks resonnering, kodeforståelse og logisk deduksjon.

At store modeller på 120 milliarder parametere feiler mens en 4 milliarder parameter-modell klarer det, sier noe om at størrelse alene ikke er svaret. Treningsstrategi og arkitekturvalg betyr stadig mer.

Abstrakt illustrasjon av mønstergjenkjenning der mange like tegn forenkles til én representant
Abstraksjonsevne er kjernen i det Qwen 3.5 4B mestrer: se strukturen bak dataene, ikke bare gjenta dem.

Hva betyr dette i praksis?

For deg som kjører modeller lokalt: Qwen 3.5 4B er verdt å prøve. Den er liten nok til å kjøre på de fleste moderne PCer, og dette funnet tyder på at den resonerer bedre enn størrelsen skulle tilsi. Har du en RTX 3060 eller bedre, kan du kjøre den direkte i Ollama.

For deg som er nysgjerrig på AI-utvikling generelt: dette er et eksempel på at den lille/store-dikotomien er i ferd med å miste mye av sin forklaringskraft. Det er ikke lenger åpenbart at «stor = bedre». Spesialiserte treningsmetoder kan gi en liten modell egenskaper som store generalistmodeller mangler.

Mercury 2, som jeg dekket for noen dager siden, er et annet eksempel på dette — en ny arkitektur som konkurrerer med mye større modeller på reasoning-oppgaver. Trenden er tydelig: effektivitet er det nye kappeløpet.

Konklusjon

Qwen 3.5 4B har klart noe som overrasket mange i LocalLLaMA-miljøet: løse et abstraksjonsproblem som GPT-4, Gemini 2.5 Flash og en lang rekke store modeller konsekvent feiler på. Det er ikke et vanntett bevis på at modellen er best på alt — men det er et sterkt signal om at Alibabas nye treningsmetoder gir resultater som ikke kan ignoreres.

En 4 milliarder parameter open source-modell som slår GPT-4 på abstraksjon. Det hadde vært utenkelig for to år siden. Nå er det bare en mandagsnyhet fra LocalLLaMA.

3 kommentarer
Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

Meld deg på nyhetsbrevet

Få oppdateringer om AI nyhetene rett i inboxen!

Du liker kanskje denne også
Jan Sverre med headphones og lydmikser i boardroom-møte med forvirrede executives

Suno AI Copyright 2026 – Opphavsrett og Rettigheter for AI-Musikk

Kan du tjene penger på Suno-musikk? Her er en praktisk gjennomgang av rettigheter, risiko og hva du bør avklare før publisering.
Jan Sverre tester GPT-5.2 ved en transparent OpenAI GPT-skjerm

GPT-5.2: Jeg testet OpenAIs nyeste modell – her er hva som faktisk fungerer

GPT-5.2 er ute med tre versjoner. Jeg har testet thinking-modellen, sammenlignet med 5.1, og funnet ut hva som faktisk er bedre. Her er mine erfaringer.
Jan Sverre profesjonelt fotograf-kvalitet portrett AI-generert bildegenerering

Google NotebookLM

Google NotebookLM er en AI-assistent som gjør dokumenter om til interaktive samtaler, studieguidere og podcasts på norsk. Nå drevet av Gemini 3 Pro med nye funksjoner som infographics, slide decks og Deep Research. Komplett guide til gratis vs. Plus-versjon.
Jan Sverre Bauge sitter foran dataskjermer med AI-agent dashboards og meldingsapper i full aktivitet

Hva Er ClawdBot? Open-Source AI-Agent med Sikkerhetsproblemer

Clawdbot er open-source AI-agenten alle snakker om. Slik kommer du i gang – og slik sikrer du deg mot alvorlige sårbarheter.