Fem konkurrenter, 192 prompts og én vinner – eller kanskje ikke. En grundig benchmark publisert på ImageBench.ai sammenligner Klein-4B (FLUX.2), Nucleus-Image, Z-Image Turbo, SANA 1.5 1.6B og Qwen Image Gen på tvers av et bredt sett med tekst-til-bilde-oppgaver. Resultatene er interessante – og mer nyanserte enn du kanskje forventer.

Det er sjelden man ser en sammenligning med så mange prompts som underlag. De fleste «benchmarks» du ser på nettet er basert på 10-20 bilder som noen har håndplukket for å gjøre en favorittmodell god. 192 prompts gir et mye bredere bilde av hva modellene faktisk klarer.

Her er hva du trenger å vite om hver modell – og hva sammenligningen avslører om tilstanden i open source-bildegenerering akkurat nå.

Hva er disse fem bildegenererings-modellene?

Før vi dykker inn i resultatene, en rask gjennomgang av hvem som konkurrerer og hva de representerer.

Klein-4B er den siste modellen fra Black Forest Labs – samme selskap som laget FLUX og FLUX.2. Klein er en 4 milliarder parametre stor distillert versjon som kjører på under 8,4 GB VRAM og genererer bilder på rundt 1,2 sekunder på en RTX 5090. Den er lisensiert under Apache 2.0, som betyr fri kommersiell bruk uten restriksjoner. Sammenlignet med FLUX.2 9B er den litt enklere, men mye raskere og langt mer tilgjengelig for folk uten toppmoderne GPU.

SANA 1.5 1.6B er NVIDIAs svar på spørsmålet «hvor liten kan en god bildemodell bli?» Den 1.6 milliarder parametre store varianten er ifølge NVIDIAs egne tall 23 ganger raskere enn FLUX-dev ved 1024×1024 oppløsning, med en FID-score på 5,70 – et tall som plasserer den godt over hva du forventer av en modell i denne størrelsen. SANA er akseptert til ICML-2025, og det er ikke hverdagslig for en open source bildemodell.

Qwen Image Gen er Alibabas 20 milliarder parametre store MMDiT-modell. Den er den klart største av de fem, og også den som er tydelig designet for komplekse oppgaver – spesielt tekst i bilder (typografi, plakater, flerspråklig innhold). Modellen hevder toppresultater på GenEval og DPG-benchmarks og støtter alt fra fotorealistiske scener til anime.

Z-Image Turbo er Alibabas raskere variant i Z-Image-serien. jansverre.net har tidligere dekket Z-Image 6B fra Tencent, men Alibabas Z-Image Turbo er en separat modell med fokus på hastighet fremfor maksimal kvalitet.

Nucleus-Image er den minst kjente av de fem. Naver Clova IX – det koreanske AI-selskapet bak blant annet Donut-modellen for dokumentforståelse – har lansert en bildegenererings-modell som har fått relativt lite oppmerksomhet utenfor benchmarking-miljøet.

Fem AI bildegenererings-modeller representert som fargede ikoner i sammenligningsgrid
Klein-4B, SANA 1.5, Qwen Image, Z-Image Turbo og Nucleus-Image – fem ulike tilnærminger til bildegenerering

Hva avdekker 192 prompts at modellene er gode på?

ImageBench.ai evaluerer bildegenerering langs flere dimensjoner: bildekvalitet, prompt-trofasthet, komposisjonalitet, konsistens og hastighet. 192 prompts er nok til å identifisere mønstre som ikke vises i kortere tester.

Det som gjentakende viser seg i slike brede sammenligninger er at ingen enkeltmodell dominerer på tvers av alle kategorier. Størrelse og treningsinvestering gir gjerne bedre prompt-trofasthet og detalj, men på bekostning av hastighet og tilgjengelighet. Kompakte modeller vinner på praktiske krav.

Klein-4B er designet for å slå på alle fronter innen sin klasse. Black Forest Labs har posisjonert den eksplisitt som «sub-sekund generering med toppkvalitet» – og med Apache 2.0-lisens er dette den modellen som er enklest å bygge produkter rundt. For folk som kjører lokale workflows i ComfyUI eller via diffusers-biblioteket er Klein-4B det åpenbare første stoppet. Den konkurrerer direkte mot sin større bror FLUX.2 9B, men med halvparten av VRAM-behovet.

SANA 1.5 1.6B gjør noe bemerkelsesverdig: den leverer resultater langt over forventet kvalitet for en 1.6B-modell. 23 ganger raskere enn FLUX-dev er et tall som høres ut som markedsføring, men NVIDIA har publisert metodologien bak det – og ICML-2025-godkjenningen gir troverdighet. For brukere med svakere hardware er dette den sterkeste kandidaten.

Qwen Image Gen skiller seg ut på tekst. Kompleks typografi, flerspråklige plakater og layoutbevisst generering er områder der 20B-modellen virkelig drar fra de andre. Hvis du skal lage innhold med spesifikk tekst i bildet – noe de andre sliter med – er Qwen det naturlige valget. Ulempen er at 20B parametre krever seriøs hardware for lokal kjøring.

Hvilken modell passer til hva?

I stedet for å kåre én vinner – som ville gitt et misvisende bilde – er det mer nyttig å se på brukstilfeller.

Bruker du ComfyUI lokalt og har en RTX 3090 eller 4090 med 24 GB VRAM? Klein-4B og SANA 1.5 er begge gode kandidater. Klein-4B gir deg FLUX-kvalitet i en pakke som faktisk passer i VRAM, mens SANA 1.5 1.6B lar deg generere raskt og med overraskende god kvalitet til sin størrelse.

Jobber du primært med tekst-heavy innhold – plakater, infografikk, sosiale medier-grafikk med spesifikk copy? Da er Qwen Image Gen et steg opp fra resten, til tross for at den er tyngre å kjøre. Via API-er som fal.ai og lignende tjenester kan du bruke den uten å eie hardware som takler 20B-vekter lokalt.

Leter du etter noe nytt og understudert? Nucleus-Image er interessant nettopp fordi den er lite testet i norske miljøer. Naver er et seriøst AI-selskap, og det er ikke utenkelig at Nucleus-Image gjemmer på noen egenskaper benchmarking-fellesskapet ennå ikke har kartlagt godt.

Side-by-side sammenligning av fotorealistisk og kunstnerisk AI-generert fjellbilde
Samme motiv generert i ulike stiler viser tydelig hva som skiller modellene fra hverandre

Hva betyr denne utviklingen for open source bildegenerering?

Det som er virkelig interessant her er ikke hvem som vinner en enkelt benchmark – det er tempoet. For to år siden var Stable Diffusion 1.5 det dominerende open source-valget, og det krevde 8 GB VRAM for å generere bilder av middelmådig kvalitet. I dag kan SANA 1.5 1.6B kjøre på hardware som er tilgjengelig for de fleste, og Black Forest Labs gir bort Apache 2.0-lisensierte 4B-modeller som genererer bilder på under et sekund.

Det er et marked i rask bevegelse. HiDream-O1-Image fjernet VAE-laget helt. ComfyUI er nå verdsatt til 500 millioner dollar. Og NVIDIA investerer tydelig i effektive bildemodeller med SANA-serien som et akademisk prosjekt med praktiske konsekvenser.

For deg som genererer bilder – enten til jobb eller lek – betyr dette at det er mer å velge mellom enn noen gang, og at mange av de beste alternativene nå er gratis å bruke og modifisere. Klein-4B med Apache 2.0 er et spesielt godt eksempel på det: en modell som faktisk er god nok til produksjonsbruk, uten lisensmessige hindringer.

Sammendrag – fem modeller på ett øyeblikk

Her er en rask oversikt over hva som skiller de fem:

ModellStørrelseLisensStyrke
Klein-4B (FLUX.2)4BApache 2.0Hastighet + kommersielt fri
SANA 1.5 1.6B1.6BÅpenSvak hardware, rask generering
Qwen Image Gen20BÅpenTekst i bilder, komplekse prompts
Z-Image TurboHastighet, Alibaba-arkitektur
Nucleus-ImageUnderstudert, Naver-teknologi

192 prompts er et bedre grunnlag for valg enn de fleste «tester» du møter på nett. Galleriet på ImageBench.ai er verdt å bla gjennom selv – det er lett å se mønstrene når man ser på faktiske bilder side om side. Flux 2 er en annen modell i samme familie som Klein som er testet mer inngående her på jansverre.net.

Bildegenerering er ikke lenger et felt der én modell dominerer alt. Det er bra – det betyr at du kan velge verktøy etter hva oppgaven faktisk krever, ikke hva som er mest omtalt på sosiale medier denne uken.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

Meld deg på nyhetsbrevet

Få oppdateringer om AI nyhetene rett i inboxen!

Du liker kanskje denne også
Jan Sverre med headphones og lydmikser i boardroom-møte med forvirrede executives

Suno AI Copyright 2026 – Opphavsrett og Rettigheter for AI-Musikk

Kan du tjene penger på Suno-musikk? Her er en praktisk gjennomgang av rettigheter, risiko og hva du bør avklare før publisering.
Jan Sverre styrer et digitalt kontrollpanel omgitt av Claude AI-symboler og glødende lysstriper i et mørkt rom

Claude AI – pris, funksjoner og norsk guide (2026)

Alt om Claude AI i 2026 – priser i norske kroner, Claude Pro vs Max, Claude Code, og ærlig sammenligning med ChatGPT. Komplett norsk guide fra en som bruker Claude daglig.
Jan Sverre profesjonelt fotograf-kvalitet portrett AI-generert bildegenerering

Google NotebookLM

Google NotebookLM er en AI-assistent som gjør dokumenter om til interaktive samtaler, studieguidere og podcasts på norsk. Nå drevet av Gemini 3 Pro med nye funksjoner som infographics, slide decks og Deep Research. Komplett guide til gratis vs. Plus-versjon.
Jan Sverre tester GPT-5.2 ved en transparent OpenAI GPT-skjerm

GPT-5.2: Jeg testet OpenAIs nyeste modell – her er hva som faktisk fungerer

GPT-5.2 er ute med tre versjoner. Jeg har testet thinking-modellen, sammenlignet med 5.1, og funnet ut hva som faktisk er bedre. Her er mine erfaringer.