Yann LeCun, en av gudfedre til moderne AI og Turing Award-vinner, har lenge hevdet at ChatGPT aldri vil nå menneskelig intelligens. Ikke engang katte-nivå intelligens, ifølge ham. I desember 2025 publiserte Meta-teamet hans VL-JEPA – en ny AI-arkitektur som representerer et fundamentalt annerledes syn på hvordan maskiner bør lære.
VL-JEPA (Vision Language Joint Embedding Predictive Architecture) er ikke enda en språkmodell. Den predikerer ikke ord. Den predikerer mening. Og med 50% færre parametere enn tradisjonelle vision-language modeller presterer den bedre på en rekke oppgaver.
Spørsmålet er: Er dette starten på post-LLM-æraen? Eller er det bare akademisk forskning som aldri når mainstream? La meg ta deg gjennom hva VL-JEPA faktisk er, hvorfor LeCun mener LLM-er er en blindgate, og hva dette betyr for deg som følger med på AI-utviklingen.
Yann LeCuns kontroversielle påstand
LeCun har ikke lagt skjul på hva han mener om dagens språkmodeller. I et intervju med Newsweek sa han rett ut: «Auto-Regressive LLMs are insufficient to reach human-level intelligence – or even cat-level intelligence.»
Ja, du leste riktig. Katte-nivå.
LeCuns argument er egentlig ganske enkelt når du tenker på det: Vi har AI-systemer som kan bestå juristeksamen, løse differensialligninger, og skrive kode. Men hvor er husholdsroboten? Hvor er en robot som er like flink som en katt til å navigere i den fysiske verden?
Tenk på det. En katt kan hoppe opp på en bokhylle, lande perfekt, og justere balansen i sanntid. Den forstår gravitasjon, friksjon, og romlige forhold uten at noen har forklart det med ord. ChatGPT? Den kan beskrive hvordan en katt hopper. Men den kan ikke forstå hva det innebærer.
LeCuns poeng er dette: Språk fanger bare en liten del av menneskelig intelligens. Det meste av hva vi vet om verden – hvordan ting føles, hvordan ting beveger seg, hvordan ting henger sammen – kan ikke beskrives med ord. Og hvis AI bare lærer fra tekst, vil den aldri forstå den virkelige verden.

Hva er JEPA egentlig?
JEPA står for Joint Embedding Predictive Architecture. Navnet er teknisk, men konseptet er faktisk ganske intuitivt.
La meg forklare med en analogi som LeCun selv bruker: Du kan ikke lære å kjøre bil bare ved å lese boken. Du kan pugge alle trafikkregler, forstå teorien bak gir og clutch, og memorere hvert veiskilt. Men første gang du setter deg bak rattet? Du vil fortsatt være håpløs.
Hvorfor? Fordi språk ikke kan beskrive følelsen av friksjon, tregheten når bilen akselererer, eller hvordan du justerer rattet når du merker at bilen glir. Dette er ting du lærer ved å gjøre, ikke ved å lese.
LLM-er (Large Language Models) som ChatGPT og Claude lærer ved å predikere neste ord i en tekst. De er utrolig gode til dette – så gode at de kan generere overbevisende tekst om nesten hva som helst. Men de lærer bare fra språk. De har ingen forståelse av den fysiske verden bak ordene.
JEPA tar en helt annen tilnærming. I stedet for å predikere ord, predikerer den embeddings – abstrakte representasjoner av mening. Dette høres kanskje teknisk ut, men forskjellen er fundamental:
- LLM: «Hvilket ord kommer etter dette?» (gjetter i ordrommet)
- JEPA: «Hva betyr dette?» (tenker i meningsrommet)
Tenk på det som forskjellen mellom å lære et språk ved å memorere setninger versus å faktisk forstå hva setningene betyr. Du kan lære å si «hvor er toalettet?» på ti forskjellige språk uten å ha noen anelse om hva du faktisk spør om.
VL-JEPA: Vision meets language
VL-JEPA er den nyeste varianten av JEPA-arkitekturen, publisert av Meta i desember 2025. Den kombinerer visuell forståelse med språk – men på en helt annen måte enn tradisjonelle vision-language modeller.
Arkitekturen består av tre hoveddeler:
X-Encoder: En frossen V-JEPA-modell som konverterer bilder og video til visuelle embeddings. Denne delen «ser» verden og oversetter den til abstrakte representasjoner.
Predictor: En transformer-modell (faktisk initialisert fra Llama-3) som tar inn visuelle embeddings og tekst, og predikerer target embeddings. Dette er hjernen som kobler sammen det visuelle og det språklige.
Joint Embedding Space: Et abstrakt representasjonsrom der mening lever. Her skjer magien – i stedet for å jobbe med ord og piksler, jobber modellen med konsepter.
Det fascinerende er resultatene: VL-JEPA oppnår bedre ytelse enn tradisjonelle vision-language modeller på 8 video-klassifiseringsdatasett og 8 video-retrieval datasett. Den slår CLIP, SigLIP2, og Perception Encoder – modeller som har vært state-of-the-art.
Og den gjør dette med 50% færre trenbare parametere.

Hvorfor færre parametere er en big deal
I AI-verdenen har «bigger is better» vært mantraet i årevis. GPT-4 har angivelig over en billion parametere. Claude, Gemini, og andre frontmodeller følger samme trend. Flere parametere betyr bedre resultater. Eller?
VL-JEPA utfordrer denne antagelsen. Med bare 1.6 milliarder parametere – som er lite i denne sammenhengen – presterer den bedre enn modeller som er mange ganger større.
Hva betyr dette i praksis?
- Lavere kostnader: Færre parametere betyr mindre beregningskraft for å trene og kjøre modellen
- Raskere inferens: 2.85x reduksjon i dekodingsoperasjoner
- Mer tilgjengelig: Mindre bedrifter og forskere kan faktisk bruke dette
- Bedre for edge-devices: Kan potensielt kjøre på roboter og IoT-enheter
For norske bedrifter som vurderer AI-løsninger er dette relevant. Dagens LLM-er krever ofte dyre cloud-tjenester eller kraftig hardware. Hvis JEPA-arkitekturen holder det den lover, kan vi se en fremtid der avansert AI er mer tilgjengelig for alle.
Praktiske anvendelser: Robotikk og selvkjørende biler
LeCuns visjon for JEPA handler ikke om chatbots. Det handler om AI som kan operere i den virkelige verden.
V-JEPA 2, som ble lansert tidligere i 2025, demonstrerte noe bemerkelsesverdig: Zero-shot robot control. Modellen kunne styre en robot til å utføre oppgaver den aldri hadde sett før – uten noen form for finjustering eller trening på den spesifikke oppgaven.
Tenk på implikasjonene:
Robotikk: Husholdsroboter som faktisk kan navigere i hjemmet ditt. Ikke fordi de har memorert hver eneste mulige situasjon, men fordi de forstår romlige forhold, fysikk, og objektpermanens.
Selvkjørende biler: AI som predikerer hvordan trafikksituasjonen utvikler seg – ikke basert på tekstbeskrivelser, men basert på faktisk forståelse av bevegelse og dynamikk.
Industrielle roboter: Maskiner som kan tilpasse seg nye oppgaver uten omfattende omprogrammering.
LLM-er er gode til å prate om disse tingene. JEPA er designet for å faktisk gjøre dem.
Er dette slutten for LLM-er?
LeCun har selv sagt at han tror LLM-er vil være «largely obsolete within five years.» Det er en dristig påstand.
Men la oss være ærlige: VL-JEPA er forskning, ikke et ferdig produkt. Det er ingen JEPA-modell du kan bruke i dag som erstatter ChatGPT. Og det er god grunn til å være skeptisk til alle påstander om «next big thing» i AI.
Her er en balansert vurdering:
Argumenter for JEPA:
- 50% færre parametere med bedre ytelse – det er et reelt gjennombrudd
- Mindre hallusinering fordi modellen predikerer abstraksjoner, ikke piksler
- Designet for real-world tasks, ikke bare tekst
- LeCun har hatt rett før – han var tidlig ute med convolutional neural networks som nå er overalt
Argumenter for å vente og se:
- Dette er akademisk forskning, ikke et produkt
- LLM-er er fortsatt uslåelige på fri tekstgenerering
- Vi har ikke sett en JEPA-modell som slår GPT-4 på alle fronter
- AI-feltet er fullt av lovende forskning som aldri blir mainstream
Min vurdering? VL-JEPA representerer en filosofisk forskjell i hvordan vi bygger AI. LLM-er sier «la oss lære alt fra språk.» JEPA sier «la oss forstå verden først, språk sekundært.» Hvem som har rett? Kanskje begge. Kanskje fremtidens AI kombinerer begge tilnærmingene.
Hva betyr dette for deg?
Hvis du er en vanlig AI-entusiast som meg, er dette fascinerende å følge med på. Vi ser en av de store tenkerne i feltet – en Turing Award-vinner – fundamentalt utfordre retningen AI-utviklingen tar.
For de som jobber i tech eller driver bedrifter som vurderer AI-investeringer, er dette verdt å ha i bakhodet. Dagens LLM-er er kraftige, men de har begrensninger. Hvis JEPA-arkitekturen modnes og blir production-ready, kan landskapet se ganske annerledes ut om noen år.
Det jeg tar med meg fra dette er egentlig et filosofisk spørsmål: Er språk intelligens? Når ChatGPT skriver en briljant tekst, forstår den hva den skriver? Eller gjetter den bare hvilke ord som passer sammen?
LeCun mener det siste. Og VL-JEPA er hans forsøk på å bygge noe som faktisk forstår.
Veien videre
Meta vil sannsynligvis open-source VL-JEPA-modeller i 2026. Når det skjer, får vi se om forskningen holder i praksis. I mellomtiden er det verdt å holde øye med utviklingen i JEPA-familien:
- I-JEPA (2023): Den første JEPA-modellen, fokusert på bilder
- V-JEPA (2024): Video-forståelse
- V-JEPA 2 (2025): State-of-the-art world model med robot control
- VL-JEPA (2025): Vision-language integration
Hver iterasjon bringer oss nærmere LeCuns visjon om AI som forstår verden – ikke bare ordene vi bruker for å beskrive den.
Hva tenker du? Er LeCun på sporet av noe revolusjonerende, eller er dette bare akademisk filosofering som aldri vil påvirke hverdagen vår? Del gjerne dine tanker.
Kilder
- VL-JEPA: Joint Embedding Predictive Architecture for Vision-language – arXiv (December 2025)
- V-JEPA: The next step toward advanced machine intelligence – Meta AI Blog
- Yann LeCun, Pioneer of AI, Thinks Today’s LLMs Are Nearly Obsolete – Newsweek
- VL-JEPA Analysis: Why Non-Generative AI Beats Pixel Prediction – Remio.ai
- V-JEPA 2 – Meta AI