Den kinesiske AI-utvikleren Stepfun har nettopp sluppet Step-3.5-Flash, og benchmarkene er ganske oppsiktsvekkende. Modellen overgår både DeepSeek V3.2 og GLM-4.7 på flere viktige målinger — og den er allerede tilgjengelig gratis på OpenRouter.
Step-3.5-Flash er bygget på en sparse Mixture of Experts (MoE) arkitektur med 196 milliarder parametere totalt, men aktiverer kun 11 milliarder per token. Denne «intelligenstettheten» gjør at den kan matche resonneringsevnen til toppmodeller, samtidig som den holder hastigheten oppe.
Imponerende tall
På SWE-bench Verified scorer modellen 74,4 prosent — høyere enn DeepSeek V3.2 (73,1%) og Kimi K2.5 (71,3%). På AIME 2025 matematikkbenchmark når den hele 97,3 prosent.
Generasjonshastigheten er også heftig: 100-300 tokens per sekund i typisk bruk, med topper på 350 tokens per sekund for kodings-oppgaver.
Designet for agenter
Det som kanskje er mest interessant er at Step-3.5-Flash er eksplisitt designet for agentiske oppgaver. Stepfun har integrert et skalerbart reinforcement learning-rammeverk som driver kontinuerlig selvforbedring. Modellen scorer 88,2 på τ²-Bench, som måler agentevner — bedre enn både DeepSeek (80,3) og Kimi K2.5.
Kjører lokalt
Med 11B aktiverte parametere er modellen også optimalisert for lokal kjøring. Stepfun hevder den kjører på høyere-ends forbrukerhardware som Mac Studio M4 Max eller NVIDIA DGX Spark.
For de som vil teste uten å sette opp noe lokalt: Modellen er allerede tilgjengelig på OpenRouter, og per nå er den gratis å bruke. Det er bare å hoppe på mens det varer.