Innhold Vis
Å lese inn et PDF-dokument på 40 sider og få ut strukturert tekst, tabeller og formler i én operasjon – det har vært drømmescenarioet for alle som jobber med dokumentbehandling. Baidu slapp nylig en åpen modell som faktisk gjør dette, og det tekniske grepet bak er enkelt nok til å forstå og smart nok til å bety noe.
Modellen heter Unlimited OCR, er på 3 milliarder parametere og bruker en Mixture-of-Experts-arkitektur. Den ble sluppet 22. juni under MIT-lisens og er tilgjengelig på Hugging Face og GitHub. Det som gjør den interessant er ikke størrelsen – det er hva den gjør med KV-cachen.
Problemet med tradisjonelle OCR-modeller er at de bremser jo mer de skriver. Jo lengre output, desto mer minne brukes, og desto tregere blir hvert nye steg. Det er det Baidu har løst med det de kaller Reference Sliding Window Attention, og resultatet er at latens og minnebruk forblir konstante uansett dokumentlengde.
Hva er R-SWA, og hvorfor er det smart?
Tradisjonell oppmerksomhetsmekanisme i språkmodeller lagrer KV-cache (key-value cache) for alle genererte tokens. Det betyr at jo lenger output, desto mer vokser cachen – og dermed minnet og ventetiden. For dokumentparsing, der output kan bli tusenvis av tokens, er dette en reell flaskehals.
Reference Sliding Window Attention (R-SWA) gjør noe annet. Den holder en fast kø der modellen ser alle visuelle tokens (fra dokumentet) og prompt-tokens, pluss de siste rundt 128 output-tokens. Eldre output kastes ut. Resultatet er at minnekompleksiteten er bundet til en konstant – den vokser ikke med output-lengden. Per-steg-latens forblir flat gjennom hele genereringen.
For å sette det i tall: ved 6 000 tokens output er Unlimited OCR 35 prosent raskere enn DeepSeek OCR-baseline. Gjennomsnittlig produserer den 5 580 tokens per sekund mot DeepSeek OCR sine 4 951 – et speedup på rundt 12,7 prosent.

Hva slags modell er dette egentlig?
Unlimited OCR er en Mixture-of-Experts-modell med totalt 3 milliarder parametere, men under inferens er det bare rundt 500 millioner som aktiveres. Det gjør den billig å kjøre, og det er mulig å kjøre den lokalt på maskinvare med begrenset VRAM. Den er videretrent fra en DeepSeek OCR-checkpoint, så slektskapet med baselinen den måles mot er ikke tilfeldig.
Visuell inngangshåndtering gjøres av en DeepEncoder som kombinerer SAM-ViT og CLIP-ViT. Et dokument på 1 024 x 1 024 piksler komprimeres til 256 tokens – det er kompakt. Deretter tar MoE-dekoderen over. Modellen støtter både Transformers og SGLang for batch-prosessering, noe som gjør den praktisk å integrere i eksisterende pipelines.
Det er verdt å merke seg at «Unlimited» i navnet ikke er helt bokstavelig. Kontekstvinduet er begrenset til 32 000 tokens, og multi-sideoperasjoner kjøres i Base-modus, som kan misse svært liten tekst. Men for de fleste realistiske brukstilfeller – dokumentbatcher, kontrakter, rapporter, akademiske artikler – er dette mer enn tilstrekkelig.
Hvordan gjør den det på benchmarks?
Tallene skal man ta med en klype salt – Baidu måler mot sin egen baseline – men de peker i riktig retning. På OmniDocBench v1.5 scorer Unlimited OCR 93,23 totalt, mot DeepSeek OCR-baselinens 87,01. På v1.6 er tallet 93,92.
Mer interessant enn poengsummene er at den ikke faller fra hverandre på lange dokumenter. Edit-distansen på tekst er 0,038 mot DeepSeek OCRs 0,073 – altså omtrent halvparten av feilene. Og ved 40 eller flere sider holder edit-distansen seg under 0,11. Med andre ord: den mister ikke tråden selv når dokumentet blir langt, og det er jo hele poenget med å holde minnet flatt.
Til sammenligning: Mistral OCR 4, som ble lansert noen dager før, tar en annen tilnærming og fokuserer mer på spatial bevissthet – å vite nøyaktig hvor hvert ord befinner seg. Unlimited OCR er mer opptatt av å holde minne og latens flate gjennom hele genereringen. Det er to ulike vinkler på det samme problemet, og hvilken som passer deg avhenger av hva du faktisk skal bruke output til.

Hvem er dette nyttig for?
Den åpenbare brukssaken er batch-dokumentparsing – å kjøre store volumer PDF-er gjennom en lokal pipeline uten å betale for API-kall. For bedrifter og utviklere som behandler kontrakter, fakturaer, rapporter eller akademisk litteratur i skala, er dette relevant.
Fordi modellen støtter SGLang-server direkte, er det ikke veldig komplisert å sette den opp for parallelle forespørsler. MoE-arkitekturen betyr at du ikke trenger ekstremt mye VRAM for å kjøre den, selv om det er vanskelig å si nøyaktig hva minimumskravet er uten å teste.
Baidu nevner også at R-SWA-mekanismen er tiltenkt å fungere generelt – ikke bare for OCR, men også for automatisk talegjenkjenning (ASR) og oversettelse. Det gjenstår å se om andre bygger videre på arkitekturen, men MIT-lisensen åpner i hvert fall for det.
For norske brukere er det en fordel at modellen kjøres lokalt – ingen data må ut av huset, og du er ikke avhengig av API-tilgjengelighet. Det er en konkret fordel for alle som håndterer sensitiv dokumentinformasjon. For den som allerede jobber med verktøy som NuExtract3 for strukturert ekstraksjon, er Unlimited OCR et naturlig supplement for selve OCR-steget.
Ofte stilte spørsmål
Hva er Baidu Unlimited OCR, og hva gjør den annerledes enn vanlige OCR-verktøy?
Unlimited OCR er en 3B-parameter AI-modell fra Baidu som parser dokumenter – tekst, tabeller og formler – i én operasjon. Det unike er Reference Sliding Window Attention (R-SWA), som holder KV-cachen konstant slik at minne og latens ikke vokser med dokumentlengden. Sluppet 22. juni 2026 under MIT-lisens.
Kan jeg kjøre Unlimited OCR lokalt?
Ja. Modellen er tilgjengelig på Hugging Face og støtter Transformers og SGLang. MoE-arkitekturen aktiverer bare rundt 500 millioner parametere under inferens, så VRAM-kravet er lavere enn totalantallet parametere tilsier.
Hvor god er den sammenlignet med DeepSeek OCR?
På OmniDocBench v1.5 scorer Unlimited OCR 93,23 mot DeepSeek OCRs 87,01. Edit-distansen på tekst er 0,038 mot DeepSeek OCRs 0,073, altså omtrent halvparten av feilene. Ved 6 000 tokens output er hastigheten rundt 35 prosent høyere. Merk at Baidu måler mot sin egen baseline.
Hva betyr «Unlimited» i navnet egentlig?
Det sikter til at minne og latens holdes flate uansett hvor langt dokumentet er – ikke at modellen tar uendelig mye tekst. Kontekstvinduet er faktisk begrenset til 32 000 tokens, og svært lange dokumenter håndteres i Base-modus som kan misse svært liten tekst. For de fleste dokumentbatcher på 40+ sider fungerer den likevel godt.