Jan Sverre Bauge utforsker Kimi K2.5 AI-modellen
Kimi K2.5 – kinesisk AI som utfordrer de store.

Moonshot AI har sluppet Kimi K2.5 — en åpen kildemodell som dominerer benchmarks og koster en brøkdel av konkurrentene.

Kimi K2.5 er nå offisielt ute, og resultatene er oppsiktsvekkende. Den kinesiske AI-modellen slår både GPT 5.2, Claude 4.5 Opus og Gemini 3 Pro på flere viktige benchmarks — spesielt når det gjelder agentoppgaver.

Hva er Kimi K2.5?

Kimi K2.5 er en åpen kildemodell fra det kinesiske selskapet Moonshot AI. Den er trent på omtrent 15 billioner tokens med blandet visuelt og tekstlig innhold, og er designet for å være spesielt god på:

  • Koding — konkurransedyktig med de beste modellene
  • Visuelle oppgaver — natively multimodal
  • Agent swarms — kan koordinere opptil 100 sub-agenter parallelt

Benchmarks som imponerer

Det som virkelig skiller Kimi K2.5 fra konkurrentene er ytelsen på agentoppgaver:

BrowseComp (nettsurfing-benchmark): 74.9% — langt foran GPT 5.2 og Claude 4.5 Opus som ligger rundt 50-60%.

Deep Search QA: Slår alle toppmodellene.

SWE Verified (koding): 76.8% — tett bak Claude (80.9%) og GPT 5.2 (80%), men foran Gemini 3 Pro.

På visuelle oppgaver som videoforståelse og OCR er modellen helt i toppsjiktet, og slår faktisk Claude 4.5 Opus på flere benchmarks.

Agent Swarms — det virkelig interessante

Den mest spennende funksjonen er kanskje agent swarm-kapasiteten. Kimi K2.5 kan:

  • Dele opp komplekse oppgaver i mindre deler
  • Delegere til opptil 100 sub-agenter
  • Koordinere opptil 1500 tool calls parallelt
  • Redusere kjøretiden med opptil 80% sammenlignet med en enkelt agent

Dette er trent inn i modellen gjennom det de kaller «Parallel Agent Reinforcement Learning» (PARL). I praksis betyr det at modellen kan orkestrere et helt team av spesialiserte agenter — en AI-forsker, en fakta-sjekker, en webutvikler — og koordinere arbeidet deres.

Prisen er sjokkerende lav

Her kommer det virkelig interessante. Kimi K2.5 koster $0.60 per million input-tokens og $3.00 per million output-tokens. Til sammenligning koster Claude 4.5 Opus henholdsvis $15 og $75 per million tokens.

Kimi K2.5 koster altså en brøkdel av konkurrentene — og slår dem på flere benchmarks.

Haken: Størrelse og tilgjengelighet

Modellen er på omtrent 1 billion parametre og krever rundt 632 GB VRAM for å kjøre lokalt. Det betyr at de aller fleste må bruke API-et til Moonshot AI — som betyr at dataene dine sendes til kinesiske servere.

For de som er opptatt av personvern, er dette et viktig moment. Quantiserte versjoner vil sannsynligvis komme fra community-en, noe som kan gjøre det mulig å kjøre modellen lokalt på kraftige Mac Studios eller lignende.

Min vurdering

Kimi K2.5 representerer et betydelig fremskritt for åpne AI-modeller. At en kinesisk aktør nå leverer bedre ytelse enn både OpenAI og Anthropic på agentoppgaver — til en brøkdel av prisen — er bemerkelsesverdig.

Spesielt agent swarm-funksjonaliteten er interessant. For de som bruker verktøy som Clawdbot eller lignende, kan dette potensielt være en game-changer for komplekse arbeidsflyter.

Men spørsmålet om datasikkerhet og kinesiske servere er noe man må ta stilling til selv. For sensitive oppgaver ville jeg ventet på quantiserte versjoner som kan kjøres lokalt.

Uansett: Konkurransen i AI-markedet har aldri vært hardere — og det er vi brukere som vinner på det.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

You May Also Like

Step-3.5-Flash slår DeepSeek og GLM — og er gratis på OpenRouter

Step-3.5-Flash fra kinesiske Stepfun slår både DeepSeek V3.2 og GLM-4.7 på viktige benchmarks – og er nå gratis tilgjengelig på OpenRouter.

LTX Video 2: Den lokale video-AI-modellen som faktisk fungerer

LTX Video 2 er en open source video-AI som kjører lokalt på forbruker-hardware. Jeg testet den ved å lage en komplett AI-generert skrekkhistorie.

OpenAI svarer med GPT-5.3 Codex — selvforbedrende AI som bygget seg selv

Kun 15 minutter etter at Anthropic slapp Claude Opus 4.6, kontret OpenAI…

Jeg testet Sky Reels V3 – Open source video-AI med store krav

Jeg testet Sky Reels V3 på min RTX 4090 med 24GB VRAM. Resultatet? 480p oppløsning og 6 minutters ventetid for 5 sekunder video. Imponerende open source-teknologi, men fortsatt for krevende for vanlige brukere.