Jan Sverre leser forskningspapirer om VL-JEPA og Meta AI arkitektur

Yann LeCun, en av gudfedre til moderne AI og Turing Award-vinner, har lenge hevdet at ChatGPT aldri vil nå menneskelig intelligens. Ikke engang katte-nivå intelligens, ifølge ham. I desember 2025 publiserte Meta-teamet hans VL-JEPA – en ny AI-arkitektur som representerer et fundamentalt annerledes syn på hvordan maskiner bør lære.

VL-JEPA (Vision Language Joint Embedding Predictive Architecture) er ikke enda en språkmodell. Den predikerer ikke ord. Den predikerer mening. Og med 50% færre parametere enn tradisjonelle vision-language modeller presterer den bedre på en rekke oppgaver.

Spørsmålet er: Er dette starten på post-LLM-æraen? Eller er det bare akademisk forskning som aldri når mainstream? La meg ta deg gjennom hva VL-JEPA faktisk er, hvorfor LeCun mener LLM-er er en blindgate, og hva dette betyr for deg som følger med på AI-utviklingen.

Yann LeCuns kontroversielle påstand

LeCun har ikke lagt skjul på hva han mener om dagens språkmodeller. I et intervju med Newsweek sa han rett ut: «Auto-Regressive LLMs are insufficient to reach human-level intelligence – or even cat-level intelligence.»

Ja, du leste riktig. Katte-nivå.

LeCuns argument er egentlig ganske enkelt når du tenker på det: Vi har AI-systemer som kan bestå juristeksamen, løse differensialligninger, og skrive kode. Men hvor er husholdsroboten? Hvor er en robot som er like flink som en katt til å navigere i den fysiske verden?

Tenk på det. En katt kan hoppe opp på en bokhylle, lande perfekt, og justere balansen i sanntid. Den forstår gravitasjon, friksjon, og romlige forhold uten at noen har forklart det med ord. ChatGPT? Den kan beskrive hvordan en katt hopper. Men den kan ikke forstå hva det innebærer.

LeCuns poeng er dette: Språk fanger bare en liten del av menneskelig intelligens. Det meste av hva vi vet om verden – hvordan ting føles, hvordan ting beveger seg, hvordan ting henger sammen – kan ikke beskrives med ord. Og hvis AI bare lærer fra tekst, vil den aldri forstå den virkelige verden.

Infographic som sammenligner LLM og JEPA arkitektur - predikerer ord vs mening

Hva er JEPA egentlig?

JEPA står for Joint Embedding Predictive Architecture. Navnet er teknisk, men konseptet er faktisk ganske intuitivt.

La meg forklare med en analogi som LeCun selv bruker: Du kan ikke lære å kjøre bil bare ved å lese boken. Du kan pugge alle trafikkregler, forstå teorien bak gir og clutch, og memorere hvert veiskilt. Men første gang du setter deg bak rattet? Du vil fortsatt være håpløs.

Hvorfor? Fordi språk ikke kan beskrive følelsen av friksjon, tregheten når bilen akselererer, eller hvordan du justerer rattet når du merker at bilen glir. Dette er ting du lærer ved å gjøre, ikke ved å lese.

LLM-er (Large Language Models) som ChatGPT og Claude lærer ved å predikere neste ord i en tekst. De er utrolig gode til dette – så gode at de kan generere overbevisende tekst om nesten hva som helst. Men de lærer bare fra språk. De har ingen forståelse av den fysiske verden bak ordene.

JEPA tar en helt annen tilnærming. I stedet for å predikere ord, predikerer den embeddings – abstrakte representasjoner av mening. Dette høres kanskje teknisk ut, men forskjellen er fundamental:

  • LLM: «Hvilket ord kommer etter dette?» (gjetter i ordrommet)
  • JEPA: «Hva betyr dette?» (tenker i meningsrommet)

Tenk på det som forskjellen mellom å lære et språk ved å memorere setninger versus å faktisk forstå hva setningene betyr. Du kan lære å si «hvor er toalettet?» på ti forskjellige språk uten å ha noen anelse om hva du faktisk spør om.

VL-JEPA: Vision meets language

VL-JEPA er den nyeste varianten av JEPA-arkitekturen, publisert av Meta i desember 2025. Den kombinerer visuell forståelse med språk – men på en helt annen måte enn tradisjonelle vision-language modeller.

Arkitekturen består av tre hoveddeler:

X-Encoder: En frossen V-JEPA-modell som konverterer bilder og video til visuelle embeddings. Denne delen «ser» verden og oversetter den til abstrakte representasjoner.

Predictor: En transformer-modell (faktisk initialisert fra Llama-3) som tar inn visuelle embeddings og tekst, og predikerer target embeddings. Dette er hjernen som kobler sammen det visuelle og det språklige.

Joint Embedding Space: Et abstrakt representasjonsrom der mening lever. Her skjer magien – i stedet for å jobbe med ord og piksler, jobber modellen med konsepter.

Det fascinerende er resultatene: VL-JEPA oppnår bedre ytelse enn tradisjonelle vision-language modeller på 8 video-klassifiseringsdatasett og 8 video-retrieval datasett. Den slår CLIP, SigLIP2, og Perception Encoder – modeller som har vært state-of-the-art.

Og den gjør dette med 50% færre trenbare parametere.

VL-JEPA arkitektur diagram med X-Encoder, Predictor og Joint Embedding Space

Hvorfor færre parametere er en big deal

I AI-verdenen har «bigger is better» vært mantraet i årevis. GPT-4 har angivelig over en billion parametere. Claude, Gemini, og andre frontmodeller følger samme trend. Flere parametere betyr bedre resultater. Eller?

VL-JEPA utfordrer denne antagelsen. Med bare 1.6 milliarder parametere – som er lite i denne sammenhengen – presterer den bedre enn modeller som er mange ganger større.

Hva betyr dette i praksis?

  • Lavere kostnader: Færre parametere betyr mindre beregningskraft for å trene og kjøre modellen
  • Raskere inferens: 2.85x reduksjon i dekodingsoperasjoner
  • Mer tilgjengelig: Mindre bedrifter og forskere kan faktisk bruke dette
  • Bedre for edge-devices: Kan potensielt kjøre på roboter og IoT-enheter

For norske bedrifter som vurderer AI-løsninger er dette relevant. Dagens LLM-er krever ofte dyre cloud-tjenester eller kraftig hardware. Hvis JEPA-arkitekturen holder det den lover, kan vi se en fremtid der avansert AI er mer tilgjengelig for alle.

Praktiske anvendelser: Robotikk og selvkjørende biler

LeCuns visjon for JEPA handler ikke om chatbots. Det handler om AI som kan operere i den virkelige verden.

V-JEPA 2, som ble lansert tidligere i 2025, demonstrerte noe bemerkelsesverdig: Zero-shot robot control. Modellen kunne styre en robot til å utføre oppgaver den aldri hadde sett før – uten noen form for finjustering eller trening på den spesifikke oppgaven.

Tenk på implikasjonene:

Robotikk: Husholdsroboter som faktisk kan navigere i hjemmet ditt. Ikke fordi de har memorert hver eneste mulige situasjon, men fordi de forstår romlige forhold, fysikk, og objektpermanens.

Selvkjørende biler: AI som predikerer hvordan trafikksituasjonen utvikler seg – ikke basert på tekstbeskrivelser, men basert på faktisk forståelse av bevegelse og dynamikk.

Industrielle roboter: Maskiner som kan tilpasse seg nye oppgaver uten omfattende omprogrammering.

LLM-er er gode til å prate om disse tingene. JEPA er designet for å faktisk gjøre dem.

Er dette slutten for LLM-er?

LeCun har selv sagt at han tror LLM-er vil være «largely obsolete within five years.» Det er en dristig påstand.

Men la oss være ærlige: VL-JEPA er forskning, ikke et ferdig produkt. Det er ingen JEPA-modell du kan bruke i dag som erstatter ChatGPT. Og det er god grunn til å være skeptisk til alle påstander om «next big thing» i AI.

Her er en balansert vurdering:

Argumenter for JEPA:

  • 50% færre parametere med bedre ytelse – det er et reelt gjennombrudd
  • Mindre hallusinering fordi modellen predikerer abstraksjoner, ikke piksler
  • Designet for real-world tasks, ikke bare tekst
  • LeCun har hatt rett før – han var tidlig ute med convolutional neural networks som nå er overalt

Argumenter for å vente og se:

  • Dette er akademisk forskning, ikke et produkt
  • LLM-er er fortsatt uslåelige på fri tekstgenerering
  • Vi har ikke sett en JEPA-modell som slår GPT-4 på alle fronter
  • AI-feltet er fullt av lovende forskning som aldri blir mainstream

Min vurdering? VL-JEPA representerer en filosofisk forskjell i hvordan vi bygger AI. LLM-er sier «la oss lære alt fra språk.» JEPA sier «la oss forstå verden først, språk sekundært.» Hvem som har rett? Kanskje begge. Kanskje fremtidens AI kombinerer begge tilnærmingene.

Hva betyr dette for deg?

Hvis du er en vanlig AI-entusiast som meg, er dette fascinerende å følge med på. Vi ser en av de store tenkerne i feltet – en Turing Award-vinner – fundamentalt utfordre retningen AI-utviklingen tar.

For de som jobber i tech eller driver bedrifter som vurderer AI-investeringer, er dette verdt å ha i bakhodet. Dagens LLM-er er kraftige, men de har begrensninger. Hvis JEPA-arkitekturen modnes og blir production-ready, kan landskapet se ganske annerledes ut om noen år.

Det jeg tar med meg fra dette er egentlig et filosofisk spørsmål: Er språk intelligens? Når ChatGPT skriver en briljant tekst, forstår den hva den skriver? Eller gjetter den bare hvilke ord som passer sammen?

LeCun mener det siste. Og VL-JEPA er hans forsøk på å bygge noe som faktisk forstår.

Veien videre

Meta vil sannsynligvis open-source VL-JEPA-modeller i 2026. Når det skjer, får vi se om forskningen holder i praksis. I mellomtiden er det verdt å holde øye med utviklingen i JEPA-familien:

  • I-JEPA (2023): Den første JEPA-modellen, fokusert på bilder
  • V-JEPA (2024): Video-forståelse
  • V-JEPA 2 (2025): State-of-the-art world model med robot control
  • VL-JEPA (2025): Vision-language integration

Hver iterasjon bringer oss nærmere LeCuns visjon om AI som forstår verden – ikke bare ordene vi bruker for å beskrive den.

Hva tenker du? Er LeCun på sporet av noe revolusjonerende, eller er dette bare akademisk filosofering som aldri vil påvirke hverdagen vår? Del gjerne dine tanker.

Kilder

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

You May Also Like

Suno AI Copyright – Hva du trenger å vite om rettigheter (2025)

Komplett guide til Suno AI copyright-regler. Pro vs Free, kommersielt bruk, juridiske fallgruver og profesjonelle tips. Oppdatert ToS november 2025.

Jeg testet Nano Banana Pro: AI som faktisk skriver norsk i bilder

Endelig! En AI som kan generere norsk tekst i bilder med 94% nøyaktighet. Jeg testet Nano Banana Pro grundig – her er resultatene.

GPT-5.2: Jeg testet OpenAIs nyeste modell – her er hva som faktisk fungerer

GPT-5.2 er ute med tre versjoner. Jeg har testet thinking-modellen, sammenlignet med 5.1, og funnet ut hva som faktisk er bedre. Her er mine erfaringer.

Google NotebookLM

Google NotebookLM er en AI-assistent som gjør dokumenter om til interaktive samtaler, studieguidere og podcasts på norsk. Nå drevet av Gemini 3 Pro med nye funksjoner som infographics, slide decks og Deep Research. Komplett guide til gratis vs. Plus-versjon.