Microsoft har sluppet Lens – en 3,8 milliarder-parametere bildemodell med MIT-lisens og ComfyUI native støtte på vei. Første tester fra Stable Diffusion-miljøet viser lovende resultater, og pull request #14077 er allerede åpen og klar til å merges inn i ComfyUI-kodebasen.

Det har ikke vart lenge siden Microsoft var mest kjent for å kjøpe seg inn i OpenAI. Nå bygger de egne bildegenererings-modeller og slipper dem som åpen kildekode. Lens er ikke bare en demo – det er en fullt funksjonell modell med tre varianter, og støtte for oppløsninger opp til 1440×1440 piksler.

Jeg har gravd gjennom teknisk dokumentasjon, pull requesten som merges, og HuggingFace-repositoriet for å gi deg en komplett oversikt over hva Lens faktisk er – og om det er verdt å installere.

Hva er Microsoft Lens?

Lens er en dual-stream MMDiT-arkitektur (Multimodal Diffusion Transformer) med 48 blokker. Kort fortalt: det er Microsofts svar på FLUX-familien, bygget på lignende prinsipper men med egne tekniske valg. Modellen bruker FLUX.2 VAE for latent space-representasjon og en GPT-basert tekstkoder med 20 milliarder parametere – det siste er uvanlig stort for en tekstkoder i en bildemodell.

Treningsdatasettet heter Lens-800M og inneholder 800 millioner bilder med lange GPT-4.1-genererte bildetekster. Microsofts poeng er at høy informasjonstetthet i treningen kompenserer for færre parametere i selve modellen – 3,8 milliarder mot eksempelvis FLUX.2s 12 milliarder. Ifølge arXiv-papiret (2605.21573) oppnår Lens konkurransedyktig bildekvalitet med betydelig lavere beregningskostnad.

Teknisk diagram av Microsoft Lens AI-modellarkitektur med MMDiT dual-stream diffusjonstransformer
Microsoft Lens bruker en 48-blokkers MMDiT-arkitektur med GPT-OSS 20B tekstkoder og FLUX.2 VAE

Hvilke varianter finnes, og hvilken bør du bruke?

Det finnes tre utgaver av Lens, og valget avhenger av hva du prioriterer:

  • Lens (standard): RL-tunet for visuell kvalitet. 20 denoising steps, CFG 5.0. Beste kvalitet.
  • Lens-Turbo: Destillert for rask 4-stegs sampling. CFG 1.0. Raskere, men noe svakere kvalitet.
  • Lens-Base: Supervisert basemodell uten RL-finjustering eller destillasjon. 50 steps, CFG 5.0. For de som vil forske på modellen.

For de fleste vil standardversjonen eller Turbo være aktuelle. Turbo-varianten minner om FLUX-Schnell-tilnærmingen – mer enn godt nok for rask prototyping, men standardmodellen gir jevnere resultater på krevende prompts.

Hvilke oppløsninger støtter Lens?

Lens er trent med mixed-resolution trening, noe som gir støtte for en rekke aspektforhold. Med base resolution 1024 ser tabellen slik ut:

  • 1:2 – 736×1472 (portrett)
  • 9:16 – 768×1376 (mobil/shorts)
  • 2:3 – 832×1248
  • 3:4 – 864×1152
  • 1:1 – 1024×1024 (kvadrat)
  • 4:3 – 1152×864
  • 3:2 – 1248×832
  • 16:9 – 1376×768 (bredformat)
  • 2:1 – 1472×736

Med base resolution 1440 skalerer alle disse opp tilsvarende – til maksimalt 1440×1440 for 1:1. Det gjør Lens til en av de få kompakte modellene som faktisk leverer skikkelig oppløsning uten å trenge upscaling i ettertid. FLUX.2 støtter sammenlignbare oppløsninger, men krever langt mer VRAM.

Hva er ComfyUI native support, og når kommer det?

Pull request #14077 i ComfyUI-repositoriet legger til full native støtte for Lens. Det vil si at du ikke trenger custom nodes eller workarounds – modellen vil fungere direkte i ComfyUI uten ekstra installasjon utover selve modellfilene.

Teknisk sett er det ganske mye som implementeres: ny modellarkitektur i comfy/ldm/lens/model.py, GPT-OSS 20B tekstkoder-støtte, MoE-lag (Mixture of Experts), YARN RoPE posisjonsembeddings, og MXFP4/NVFP4-kvantisering. Det er med andre ord ikke en enkel adapter – det er ordentlig integrasjonsarbeid.

Hvis du ikke vil vente på offisiell merge, kan du allerede nå hente PR-branchen direkte:

git fetch origin pull/14077/head:pr-14077
git checkout pr-14077

Husk at PR-brancher kan ha uferdig kode. For produksjonsbruk er det lurt å vente på den offisielle mergen.

ComfyUI node graph med Microsoft Lens modell koblet i en bildegenererings-workflow
Når PR #14077 merges inn i ComfyUI, kan du bruke Lens direkte som en native node i workflow-editoren

Hvordan installerer du Lens i ComfyUI i dag?

Modellfilene fra Comfy-Org/Lens på HuggingFace er allerede formatert for ComfyUI. Du trenger fire filer plassert slik:

ComfyUI/
├── models/
│   ├── diffusion_models/
│   │   ├── lens_bf16.safetensors
│   │   └── lens_turbo_bf16.safetensors
│   ├── text_encoders/
│   │   └── gpt_oss_20b_nvfp4.safetensors
│   └── vae/
│       └── flux2-vae.safetensors

Tekstkoderen på 20 milliarder parametere er den store filen her – regn med 10-15 GB på disk. Total installasjonsstørrelse er sannsynligvis 20+ GB. VRAM-kravene er ikke offisielt dokumentert ennå, men gitt GPT-OSS-tekstkoderens størrelse anbefaler jeg minst 16 GB VRAM for komfortabel bruk uten offloading. Med --offload-flagget kan du kjøre på mindre, men da øker genereringstiden.

Dette er ComfyUI sin styrke: standardisert modellmappe-struktur gjør det relativt enkelt å legge til nye modeller uten å rekonfigurere hele oppsettet.

Er kvaliteten god nok?

Tittelen på Reddit-tråden sier «it’s pretty decent» – og det er egentlig en ganske ærlig vurdering. Første tester viser at Lens leverer tilfredsstillende bildekvalitet for en 3,8 milliarder-parametere modell, særlig med tanke på at Turbo-varianten klarer seg på 4 steps.

Lens er ikke designet for å konkurrere direkte med FLUX.2 Dev på toppkvalitet. Styrken er effektivitet: færre parametere, rask Turbo-variant, og MIT-lisens som tillater kommersiell bruk uten restriksjoner. For de som kjører lokalt på begrenset maskinvare og trenger noe raskere enn FLUX.2, er Lens interessant.

Tekstrendering ser ut til å fungere bedre enn hos mange konkurrenter, noe som ikke er overraskende gitt at Microsoft brukte GPT-4.1 til å generere treningscaptioner. Mer detaljerte captions gir bedre prompt-følging, og det vises i resultatene.

Hva betyr MIT-lisensen i praksis?

MIT-lisensen er den mest permissive åpne lisensen som finnes. Du kan bruke Lens kommersielt, modifisere modellen, bygge produkter på toppen av den, og distribuere videre – uten å betale royalties og uten å dele tilbake endringene dine.

Det er et bevisst valg fra Microsofts side. Open source AI-utvikling handler i stor grad om å etablere seg i økosystemet – og ComfyUI-integrasjon med MIT-lisens er en effektiv måte å få modellen adoptert raskt. Open source AI har vist gang på gang at bred tilgjengelighet driver raskere forbedringer enn lukkede modeller.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

Meld deg på nyhetsbrevet

Få oppdateringer om AI nyhetene rett i inboxen!

Du liker kanskje denne også
Jan Sverre arbeider med Suno AI musikk-generering på datamaskinen, kreativt workspace med hodetelefoner

Suno AI – 150 Låter Testet: Hva Funker og Hva Er Bortkastet Tid

Jeg testet 150 Suno-låter og fant tydelige mønstre. Her er hva som faktisk gir kvalitet, og hva som bare kaster bort tid.
Jan Sverre med headphones og lydmikser i boardroom-møte med forvirrede executives

Suno AI Copyright 2026 – Opphavsrett og Rettigheter for AI-Musikk

Kan du tjene penger på Suno-musikk? Her er en praktisk gjennomgang av rettigheter, risiko og hva du bør avklare før publisering.
Jan Sverre styrer et digitalt kontrollpanel omgitt av Claude AI-symboler og glødende lysstriper i et mørkt rom

Claude AI – pris, funksjoner og norsk guide (2026)

Alt om Claude AI i 2026 – priser i norske kroner, Claude Pro vs Max, Claude Code, og ærlig sammenligning med ChatGPT. Komplett norsk guide fra en som bruker Claude daglig.
Jan Sverre riding a dinosaur in safari outfit, photorealistic AI-generated image demonstrating Nano Banana Pro capabilities

Jeg testet Nano Banana Pro: AI som faktisk skriver norsk i bilder

Endelig! En AI som kan generere norsk tekst i bilder med 94% nøyaktighet. Jeg testet Nano Banana Pro grundig – her er resultatene.