Kinesiske DeepSeek har nettopp lansert en oppdatert versjon av sin AI-modell DeepSeek R1, som nå direkte utfordrer verdens ledende kunstige intelligenser. Den nye versjonen representerer et betydelig sprang i ytelse, selv om selskapet selv omtaler det som en mindre oppgradering.

Dramatiske forbedringer i resonneringsevner

I den nyeste oppdateringen har DeepSeek R1 drastisk forbedret sine resonneringsevner og slutningskapasiteter. Dette er oppnådd gjennom økt beregningskraft og innføring av algoritmiske optimaliseringsmekanismer under ettertrening. Modellen viser nå fremragende ytelse på tvers av ulike evalueringskriterier, inkludert matematikk, programmering og generell logikk.

Det mest oppsiktsvekkende er at den samlede ytelsen nå nærmer seg ledende kommersielle AI-modeller som OpenAI O3 og Google Gemini 2.5. Dette er bemerkelsesverdig ettersom DeepSeek R1 er en fullstendig åpen kildekode-modell som konkurrerer direkte med proprietære systemer fra teknologigigantene.

Imponerende benchmarkresultater

På flere benchmarker har den nye DeepSeek-versjonen vist betydelige forbedringer sammenlignet med den forrige versjonen:

  • AIME 2024-resultatene: fra 79,8 til 91,4
  • AIME 2025-resultatene: fra 70 til 87
  • GPQA Diamond: fra 71 til 81
  • Live Code Bench: fra 63 til 73
  • ADER: fra 57 til 71
  • Humanity’s Last Exam: fra 8,5 til 17,7

Sammenlignet med OpenAI O3 er DeepSeek R1 nå svært nær på flere områder — praktisk talt identisk på AIME 2024, litt bak på AIME 2025, GPQA Diamond og Live Code Bench, men med større differanse på ADER (71 vs 79).

Det overraskende er at Gemini 2.5 Pro, som regnes for å være den beste kodemodellen i bransjen, ligger bak O3 på nesten alle benchmarker. Dette indikerer et mulig skifte i maktbalansen mellom de ledende AI-selskapene.

DeepSeek R1 har hoppet forbi XAI (Meta) og Anthropic for å bli rangert som det nest beste AI-laboratoriet i verden og den ubestridte lederen innen åpne modeller, ifølge Artificial Analysis.

Samme arkitektur, ny ytelse

En interessant detalj er at det ikke har vært noen endring i arkitekturen, noe som forklarer hvorfor modellen fortsatt heter R1 og ikke R2. Det er snakk om R1 V2 — en stor modell med 671 milliarder parametere, hvorav 37 milliarder er aktive. Den nye versjonen har likevel oppnådd et betydelig sprang i kodeferdighetene, der R1 nå matcher Gemini 2.5 Pro i Artificial Analysis Coding Index, og kun ligger bak O4 MiniHi og O3.

Teknisk diagram over DeepSeek R1 modellarkitektur med 671 milliarder parametere
DeepSeek R1 modellarkitektur

Grundigere tenkning bak forbedringen

En observasjon som forklarer noe av ytelseshoppet er at den nye versjonen bruker betydelig flere tokens for å tenke enn den forrige versjonen. R1 528 brukte 99 millioner tokens for å fullføre evalueringene i Artificial Analysis Intelligence Index — 40% mer enn originalen. Den nye R1 tenker altså lenger og grundigere enn den opprinnelige, selv om Gemini 2.5 Pro fortsatt bruker flest tokens — 30% mer enn R1 0528.

Denne forbedringen er oppnådd gjennom avansert ettertrening hvor selskapet har fortsatt å forbedre sine reinforcement learning-teknikker og klart å få mer ut av sin opprinnelige pre-training. Dette representerer et stort sprang fra DeepSeek januar 2025 på 60 poeng i Artificial Analysis Intelligence Index, til dagens nivå rett bak OpenAI’s lukkede modeller og på par med Gemini 2.5 Pro Preview Mai 2025.

Kostnadseffektiv AI-utvikling

En av de mest imponerende aspektene ved DeepSeek R1 er dens kostnadseffektivitet. Ifølge Reuters er trening av denne modellen 20-50 ganger mindre kostbar enn OpenAI’s O1-modell. Dette demonstrerer at betydelig AI-utvikling kan oppnås uten de enorme ressursene som teknologigigantene har til rådighet.

Sam Altman, administrerende direktør i OpenAI, har tidligere beskrevet DeepSeek’s R1-modell som «imponerende» og lovet at OpenAI ville utvikle enda bedre modeller i fremtiden, ifølge Axios.

DeepSeek’s raske fremgang utfordrer tradisjonelle antagelser om nødvendigheten av enorme datakraftressurser for å utvikle avanserte AI-modeller. Selskapets fokus på effektivitet og forskning har ført til betydelige gjennombrudd i AI-feltet.

Praktisk testing avslører fortsatt forbedringsområder

Til tross for imponerende benchmarkresultater viser praktiske tester av modellen at det fortsatt finnes forbedringsområder. Ved testing av den nye DeepSeek-versjonen med DeepThink aktivert (R1-versjonen) på en Rubik’s Cube-test, brukte modellen 328 sekunder (flere minutter) på å tenke gjennom oppgaven. Selv om modellen genererte kode, fungerte denne ikke perfekt ved kjøring.

Lignende resultater viste seg ved en test for å lage et avansert slangespill med forskjellige funksjoner. R1 genererte over 1100 linjer med kode på bare 22 sekunder, men denne koden inneholdt feilmeldinger og fungerte ikke som tiltenkt.

Dette indikerer at selv om modellen viser sterke teoretiske ferdigheter på benchmarktester, er det fortsatt utfordringer med praktisk kodeimplementering som må løses i fremtidige versjoner.

Skjermbilde av kodegenerering fra DeepSeek R1 som viser programmering av et avansert spill
DeepSeek R1 kodegenerering

Kina på vei til å ta igjen USA i AI-kappløpet

En viktig observasjon er at ifølge Artificial Analysis holder Kina nå tritt med USA i AI-utviklingen. Modeller fra kinesiske AI-laboratorier har nesten fullstendig tatt igjen sine amerikanske motparter. DeepSeek leder nå amerikanske AI-laboratorier som Anthropic og Meta i Artificial Analysis Intelligence Index.

Dette skiftet i den globale AI-balansen kan ha betydelige geopolitiske og teknologiske konsekvenser i årene som kommer. DeepSeek, under ledelse av grunnlegger Liang Wenfeng, har fokusert mer på forskning enn inntekter, ifølge Reuters.

Inferenshastighet og kontekstvindu

For de som er opptatt av ytelse, tilbyr Fireworks de raskeste inferenshastighetene for denne nye DeepSeek R1-varianten med 253 output tokens per sekund. Kontekstvinduet for DeepSeek er fortsatt relativt beskjedent — 64 000 tokens på DeepSeeks egne tjenester, og opptil 164 000 på Fireworks og noen andre inferensleverandører.

Denne begrensningen i kontekstvindu er et område hvor modellen fortsatt ligger bak flere av sine konkurrenter, som tilbyr betydelig større kontekstvinduer.

Fremtidsutsikter for åpen kildekode AI

Det mest betydningsfulle med denne oppgraderingen er at gapet mellom åpen kildekode og lukket kildekode AI fortsetter å krympe. Da DeepSeek R1 først ble lansert for noen måneder siden, representerte den et enormt sprang innen åpen kildekode AI. Det var første gang vi så en ekstremt kapabel, effektiv tenkende modell med åpen kildekode.

Nå med oppgraderingen er den sammenlignbar med de ledende frontier-modellene, noe som kan føre til bredere adopsjon og innovasjon bygget på åpen AI-teknologi.

For utviklere, forskere og bedrifter som ønsker å eksperimentere med avansert AI uten de høye kostnadene forbundet med proprietære modeller, representerer DeepSeek R1 en spennende mulighet. Den kan brukes til alt fra kodemaskiner og kunnskapssystemer til avanserte assistenter.

Ønsker du å teste DeepSeek R1 selv? Modellen er tilgjengelig via Hugging Face eller gjennom fjerninfereringstjenester som Fireworks. Prøv den ut til dine prosjekter og se hvordan en åpen kildekode-modell nå kan konkurrere med de beste kommersielle alternativene!

Les: DeepSeek – den kinesiske AI-utfordreren forklart (2026).

2 kommentarer
Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

Meld deg på nyhetsbrevet

Få oppdateringer om AI nyhetene rett i inboxen!

Du liker kanskje denne også
Claude code terminal interface

Claude Code nå for $20: Rimelig AI-drevet kodehjelp for alle utviklere

Anthropics Claude Code er nå tilgjengelig på $20 Pro-abonnement. Lær hvordan du kan utnytte AI-drevet koding uten store investeringer og hvilke kompromisser du må regne med.
Jan Sverre Bauge sitter foran dataskjermer med AI-agent dashboards og meldingsapper i full aktivitet

Hva Er ClawdBot? Open-Source AI-Agent med Sikkerhetsproblemer

Clawdbot er open-source AI-agenten alle snakker om. Slik kommer du i gang – og slik sikrer du deg mot alvorlige sårbarheter.
Elevenlabs v3 alpha test hovedbilde

ElevenLabs V3 Alpha test: Lydeffekter og flerstemme endrer AI-stemme

Test av ElevenLabs V3 Alpha avslører imponerende lydeffekter og flerstemme-funksjoner. Les om kostnader, kvalitet og hvordan modellen skiller seg ut.
protonmail

Protonmail samler ikke inn noen data, men ingen ønsker det

Innhold Vis ProtonMails retningslinjer for personvernTillit til ProtonMails tjenesteSammenligning av e-postsikkerhetProtonMails kommende…