Step-3.5-Flash AI-modell benchmarks og ytelse
Step-3.5-Flash bruker kun 11 av 196 milliarder parametere per token.

Den kinesiske AI-utvikleren Stepfun har nettopp sluppet Step-3.5-Flash, og benchmarkene er ganske oppsiktsvekkende. Modellen overgår både DeepSeek V3.2 og GLM-4.7 på flere viktige målinger — og den er allerede tilgjengelig gratis på OpenRouter.

Step-3.5-Flash er bygget på en sparse Mixture of Experts (MoE) arkitektur med 196 milliarder parametere totalt, men aktiverer kun 11 milliarder per token. Denne «intelligenstettheten» gjør at den kan matche resonneringsevnen til toppmodeller, samtidig som den holder hastigheten oppe.

Imponerende tall

På SWE-bench Verified scorer modellen 74,4 prosent — høyere enn DeepSeek V3.2 (73,1%) og Kimi K2.5 (71,3%). På AIME 2025 matematikkbenchmark når den hele 97,3 prosent.

Generasjonshastigheten er også heftig: 100-300 tokens per sekund i typisk bruk, med topper på 350 tokens per sekund for kodings-oppgaver.

Designet for agenter

Det som kanskje er mest interessant er at Step-3.5-Flash er eksplisitt designet for agentiske oppgaver. Stepfun har integrert et skalerbart reinforcement learning-rammeverk som driver kontinuerlig selvforbedring. Modellen scorer 88,2 på τ²-Bench, som måler agentevner — bedre enn både DeepSeek (80,3) og Kimi K2.5.

Kjører lokalt

Med 11B aktiverte parametere er modellen også optimalisert for lokal kjøring. Stepfun hevder den kjører på høyere-ends forbrukerhardware som Mac Studio M4 Max eller NVIDIA DGX Spark.

For de som vil teste uten å sette opp noe lokalt: Modellen er allerede tilgjengelig på OpenRouter, og per nå er den gratis å bruke. Det er bare å hoppe på mens det varer.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

You May Also Like

Kimi K2.5: Kinas svar på de store AI-modellene

Moonshot AI har sluppet Kimi K2.5 – en åpen kildemodell som dominerer benchmarks og koster en brøkdel av konkurrentene.

LTX Video 2: Den lokale video-AI-modellen som faktisk fungerer

LTX Video 2 er en open source video-AI som kjører lokalt på forbruker-hardware. Jeg testet den ved å lage en komplett AI-generert skrekkhistorie.

OpenAI svarer med GPT-5.3 Codex — selvforbedrende AI som bygget seg selv

Kun 15 minutter etter at Anthropic slapp Claude Opus 4.6, kontret OpenAI…

Jeg testet Sky Reels V3 – Open source video-AI med store krav

Jeg testet Sky Reels V3 på min RTX 4090 med 24GB VRAM. Resultatet? 480p oppløsning og 6 minutters ventetid for 5 sekunder video. Imponerende open source-teknologi, men fortsatt for krevende for vanlige brukere.