Innhold Vis
Microsoft har sluppet Lens – en 3,8 milliarder-parametere bildemodell med MIT-lisens og ComfyUI native støtte på vei. Første tester fra Stable Diffusion-miljøet viser lovende resultater, og pull request #14077 er allerede åpen og klar til å merges inn i ComfyUI-kodebasen.
Det har ikke vart lenge siden Microsoft var mest kjent for å kjøpe seg inn i OpenAI. Nå bygger de egne bildegenererings-modeller og slipper dem som åpen kildekode. Lens er ikke bare en demo – det er en fullt funksjonell modell med tre varianter, og støtte for oppløsninger opp til 1440×1440 piksler.
Jeg har gravd gjennom teknisk dokumentasjon, pull requesten som merges, og HuggingFace-repositoriet for å gi deg en komplett oversikt over hva Lens faktisk er – og om det er verdt å installere.
Hva er Microsoft Lens?
Lens er en dual-stream MMDiT-arkitektur (Multimodal Diffusion Transformer) med 48 blokker. Kort fortalt: det er Microsofts svar på FLUX-familien, bygget på lignende prinsipper men med egne tekniske valg. Modellen bruker FLUX.2 VAE for latent space-representasjon og en GPT-basert tekstkoder med 20 milliarder parametere – det siste er uvanlig stort for en tekstkoder i en bildemodell.
Treningsdatasettet heter Lens-800M og inneholder 800 millioner bilder med lange GPT-4.1-genererte bildetekster. Microsofts poeng er at høy informasjonstetthet i treningen kompenserer for færre parametere i selve modellen – 3,8 milliarder mot eksempelvis FLUX.2s 12 milliarder. Ifølge arXiv-papiret (2605.21573) oppnår Lens konkurransedyktig bildekvalitet med betydelig lavere beregningskostnad.

Hvilke varianter finnes, og hvilken bør du bruke?
Det finnes tre utgaver av Lens, og valget avhenger av hva du prioriterer:
- Lens (standard): RL-tunet for visuell kvalitet. 20 denoising steps, CFG 5.0. Beste kvalitet.
- Lens-Turbo: Destillert for rask 4-stegs sampling. CFG 1.0. Raskere, men noe svakere kvalitet.
- Lens-Base: Supervisert basemodell uten RL-finjustering eller destillasjon. 50 steps, CFG 5.0. For de som vil forske på modellen.
For de fleste vil standardversjonen eller Turbo være aktuelle. Turbo-varianten minner om FLUX-Schnell-tilnærmingen – mer enn godt nok for rask prototyping, men standardmodellen gir jevnere resultater på krevende prompts.
Hvilke oppløsninger støtter Lens?
Lens er trent med mixed-resolution trening, noe som gir støtte for en rekke aspektforhold. Med base resolution 1024 ser tabellen slik ut:
- 1:2 – 736×1472 (portrett)
- 9:16 – 768×1376 (mobil/shorts)
- 2:3 – 832×1248
- 3:4 – 864×1152
- 1:1 – 1024×1024 (kvadrat)
- 4:3 – 1152×864
- 3:2 – 1248×832
- 16:9 – 1376×768 (bredformat)
- 2:1 – 1472×736
Med base resolution 1440 skalerer alle disse opp tilsvarende – til maksimalt 1440×1440 for 1:1. Det gjør Lens til en av de få kompakte modellene som faktisk leverer skikkelig oppløsning uten å trenge upscaling i ettertid. FLUX.2 støtter sammenlignbare oppløsninger, men krever langt mer VRAM.
Hva er ComfyUI native support, og når kommer det?
Pull request #14077 i ComfyUI-repositoriet legger til full native støtte for Lens. Det vil si at du ikke trenger custom nodes eller workarounds – modellen vil fungere direkte i ComfyUI uten ekstra installasjon utover selve modellfilene.
Teknisk sett er det ganske mye som implementeres: ny modellarkitektur i comfy/ldm/lens/model.py, GPT-OSS 20B tekstkoder-støtte, MoE-lag (Mixture of Experts), YARN RoPE posisjonsembeddings, og MXFP4/NVFP4-kvantisering. Det er med andre ord ikke en enkel adapter – det er ordentlig integrasjonsarbeid.
Hvis du ikke vil vente på offisiell merge, kan du allerede nå hente PR-branchen direkte:
git fetch origin pull/14077/head:pr-14077
git checkout pr-14077
Husk at PR-brancher kan ha uferdig kode. For produksjonsbruk er det lurt å vente på den offisielle mergen.

Hvordan installerer du Lens i ComfyUI i dag?
Modellfilene fra Comfy-Org/Lens på HuggingFace er allerede formatert for ComfyUI. Du trenger fire filer plassert slik:
ComfyUI/
├── models/
│ ├── diffusion_models/
│ │ ├── lens_bf16.safetensors
│ │ └── lens_turbo_bf16.safetensors
│ ├── text_encoders/
│ │ └── gpt_oss_20b_nvfp4.safetensors
│ └── vae/
│ └── flux2-vae.safetensors
Tekstkoderen på 20 milliarder parametere er den store filen her – regn med 10-15 GB på disk. Total installasjonsstørrelse er sannsynligvis 20+ GB. VRAM-kravene er ikke offisielt dokumentert ennå, men gitt GPT-OSS-tekstkoderens størrelse anbefaler jeg minst 16 GB VRAM for komfortabel bruk uten offloading. Med --offload-flagget kan du kjøre på mindre, men da øker genereringstiden.
Dette er ComfyUI sin styrke: standardisert modellmappe-struktur gjør det relativt enkelt å legge til nye modeller uten å rekonfigurere hele oppsettet.
Er kvaliteten god nok?
Tittelen på Reddit-tråden sier «it’s pretty decent» – og det er egentlig en ganske ærlig vurdering. Første tester viser at Lens leverer tilfredsstillende bildekvalitet for en 3,8 milliarder-parametere modell, særlig med tanke på at Turbo-varianten klarer seg på 4 steps.
Lens er ikke designet for å konkurrere direkte med FLUX.2 Dev på toppkvalitet. Styrken er effektivitet: færre parametere, rask Turbo-variant, og MIT-lisens som tillater kommersiell bruk uten restriksjoner. For de som kjører lokalt på begrenset maskinvare og trenger noe raskere enn FLUX.2, er Lens interessant.
Tekstrendering ser ut til å fungere bedre enn hos mange konkurrenter, noe som ikke er overraskende gitt at Microsoft brukte GPT-4.1 til å generere treningscaptioner. Mer detaljerte captions gir bedre prompt-følging, og det vises i resultatene.
Hva betyr MIT-lisensen i praksis?
MIT-lisensen er den mest permissive åpne lisensen som finnes. Du kan bruke Lens kommersielt, modifisere modellen, bygge produkter på toppen av den, og distribuere videre – uten å betale royalties og uten å dele tilbake endringene dine.
Det er et bevisst valg fra Microsofts side. Open source AI-utvikling handler i stor grad om å etablere seg i økosystemet – og ComfyUI-integrasjon med MIT-lisens er en effektiv måte å få modellen adoptert raskt. Open source AI har vist gang på gang at bred tilgjengelighet driver raskere forbedringer enn lukkede modeller.