Sakana Fugu Ultra: Fable-ytelse, men ny modell eller orkestrerings-skall?

Innhold Vis

Fugu Ultra gikk viralt samme dag den ble lansert, 24. juni 2026. Sakana AI – et japansk AI-lab med den slående fiske-logoen – hevdet at systemet matcher ytelsen til Claude Fable 5 og Mythos. Benchmarkene så imponerende ut. Sosiale medier tente. Og så begynte folk å faktisk teste det.

Det som kom ut av tre uavhengige testløp er en ganske annen historie. Ikke fordi Fugu Ultra er dårlig – det er godt ingeniørarbeid. Men hva det faktisk er, og hva det koster i praksis, er noe annet enn det benchmark-grafer gir inntrykk av.

Kjernen er dette: Fugu Ultra er ikke en ny frontier-modell. Det er et orkestrerings-system – en liten «conductor»-modell trent til å fordele oppgaver mellom frontier-modeller (Opus 4.8, GPT-5.5, Gemini 3.1 Pro m.fl.) og sy svarene sammen til ett output. Du treffer én API. Bak kulissene ruter den jobben til modellene du allerede har tilgang til.

Hva er egentlig Fugu Ultra?

OpenRouters egen beskrivelse er presis: «a learned multi-agent orchestration system: a language model trained to route tasks across a swappable pool of underlying models.» Det finnes altså ekte teknologi her – Sakana har trent en «conductor»-modell basert på egne forskningsartikler kalt «Trinity» og «The Conductor». Fugu Ultra er den tyngste varianten, med dypere orkestrering, større modell-pool, og noe de kaller «adaptive agent memory» for lengre oppgaver.

Men intelligensen som faktisk løser oppgaven? Den kommer fra Opus 4.8, GPT-5.5 og de andre modellene i bunken. Fugu er manageren. Og du betaler for alt det interne snakket mellom manageren og arbeiderne som vanlige input/output-tokens.

Sakana-logoen – mange små fisk som svømmer sammen og danner én stor fisk – er faktisk en god metafor. Det er akkurat det dette er. Spørsmålet er om summen blir mer enn delene.

Mange små lysende fisk svømmer sammen og danner én stor fisk - metafor for AI-orkestrering — Sakana-logoen i digital form: mange modeller som samles til ett output – akkurat som en stim av fisk

Pris og tilgang: regnestykket som forklarer alt

Fugu Ultra koster $5 per 1 million input-tokens og $30 per 1 million output-tokens via OpenRouter. Kontekstvinduet er 1 million tokens, og prismodellen endrer seg noe over 272K tokens. Det høres overkommelig ut frem til du forstår hva «orchestration tokens» betyr: alt det interne modell-snakket – planlegging, deloppgaver, verifisering, aggregering – faktureres som standard tokens. Du betaler ikke bare for ditt spørsmål og svaret du får. Du betaler for alt arbeidet bak kulissene.

I praksis betyr det at en enkel «hello»-utveksling kostet 4 cent i ett av testløpene. Et testløp med 38 kunnskapsoppgaver mot Opus 4.8 – der Opus er én av modellene Fugu velger fra – endte med rundt $50 for Fugu mot $10 for Opus alene. Omtrent 5x dyrere. En $200-i-måneden-plan ble brukt opp 34 prosent på ett enkelt 5-timers testvindu.

Tilgang er greit: Sakana sin egen API (pay-as-you-go eller abonnement) og OpenRouter med OpenAI-kompatibel base-URL. Merk at enkelte europeiske regioner er sperret foreløpig.

Tre tester, samme konklusjon

Tre uavhengige testmiljøer kjørte Fugu Ultra samme uke. Ingen av dem er offisiell forskning – det er anekdotiske testløp fra folk som faktisk satte penger på bordet. Men de peker alle i samme retning.

Kunnskapsarbeid, 38 oppgaver mot Opus 4.8 direkte: 36 av 38 oppgaver endte uavgjort. Opus vant to. Fugu vant ingen. Tidsforbruket var 357 minutter for Fugu mot 80 minutter for Opus på de samme 38 oppgavene. Enkle oppgaver Opus klarte på 6 sekunder brukte Fugu flere minutter på. Dommen: «ikke en smartere modell, bare en manager.»

Bygg-tester (spill, nettsider, scener): Her var bildet mer nyansert. Resultatene var rene og godt organisert. Men estetikken lakk gjennom – dommeren noterte at ett browser-OS-forsøk var «veldig tungt inspirert av GPT-5.5». Og da det kom til direkte sammenligning mot GPT-5.5 i high-thinking-modus, vant GPT-5.5 direkte mot en rimeligere prislapp. Fugu Ultra slo tydelig OpenRouters eget Fusion-API, men slår sjelden en enkelt godt kalibrert frontier-modell.

Benchmark-kontekst og head-to-heads: Her er det interessant. Fugu Ultra gjør det faktisk bra på live code bench og terminal bench – blant annet slår den Fable 5 på noen av disse benchmarkene. Men på SWE-bench Pro, som er mer krevende og long-horizon, er den svakere. En flight-sim og black hole-simulering slo MiniMax M3 og GLM 5.2, men Crossy Road-klonen hadde inverterte kontroller og vinglete kamera. Dommen: «imponerende ingeniørarbeid, men ikke ekte frontier-intelligens.»

Illustrasjon av enkel direkte rute kontra komplekst orkestrerings-nettverk med høyere kostnad — Direkte vs. orkestrert: enkle oppgaver ender ofte billigere og raskere med én frontier-modell enn gjennom et orkestrerings-skall

Hvorfor ser benchmarkene så bra ut?

Det er et legitimt spørsmål, og svaret er ganske avslørende. Conductoren trenger ikke være frontier-smart selv. Den trenger å være god på fire ting: bryte ned oppgaven, rute deloppgaver til riktig modell, verifisere hvert svar, og aggregere til et endelig output. Det er nettopp dette mønsteret som belønnes på mange benchmarks – grundig og strukturert problemløsing, der hvert steg sjekkes mot seg selv.

Men i den virkelige verden har hvert ekstra planleggings- og verifiseringssteg en pris: latency øker, kostnaden øker, og hvert nytt grensesnitt mellom modellene er et potensielt feilpunkt. Det som ser elegant ut som et flow-diagram fungerer greit på velformede enkeltoppgaver. Lange, åpne oppgaver med mange avhengigheter er en annen sak.

Det er ikke uærlig benchmarking. Det er at orkestrerings-systemer og monolittiske modeller optimerer for ulike ting, og mange benchmarks premierer tilfeldigvis det førstnevnte.

Hva Fugu Ultra faktisk kan være verdt

Skepsisen over er ikke det samme som at Fugu Ultra er verdiløst. Det er et system med noen reelle styrker, og det finnes brukstilfeller der orkestrerings-mønsteret gir mening.

Hvis du jobber i et team der ulike deler av en kodebase har ulike modell-styrker – kanskje GPT-5.5 er bedre på én type fil, Opus på en annen – er automatisk ruting noe du ellers må kode selv. Fugu gjør det for deg. Tilsvarende for long-horizon multi-step-oppgaver der du vil ha innebygd verifisering underveis, ikke bare ett sammenhengende svar.

Den «adaptive agent memory»-funksjonen for lengre arbeidsflyter er også interessant i teorien. Om den fungerer robust i praksis over tid, er noe testene foreløpig ikke har besvart grundig.

Men for de aller fleste som leser dette: én velvalgt frontier-modell kjørt direkte, gjerne via OpenRouter, gir deg bedre flyt, lavere kostnad og kortere responstid. Det er ikke et argument mot orkestrering som konsept – det er et argument mot å betale fem ganger så mye for den ferdigpakkede varianten akkurat nå.

Eksportkontroll og det japanske aspektet

Sakana fremhever at Fugu Ultra leverer «frontier capability without the risk of export controls» – underforstått at en japansk orkestrator ikke har de geopolitiske komplikasjonene som kan knytte seg til kinesiske modeller. Det er en del av pitchen, og den har substans for bedrifter som opererer i regulerte sektorer.

Men la oss være tydelige: du bruker likevel GPT-5.5 og Opus 4.8 under panseret. Japansk orkestrator endrer ikke hvilke modeller som faktisk løser oppgavene dine. For de som har genuine compliance-krav rundt hvilke modeller som ser dataene, er dette en nyanse verdt å forstå.

Orkestrering er ikke nytt – men én API er praktisk

Det Fugu Ultra gjør er egentlig ikke fremmed for noen som har jobbet med AI en stund. Å sette ulike modeller til ulike oppgaver, la én modell verifisere en annens output, eller automatisk velge modell basert på oppgavetype – det er mønster folk har bygget selv i lengre tid. Frontier-modeller som Fable 5 og Mythos gjør dessuten mye av denne koordineringen internt allerede.

Det som er nytt med Fugu er at det er pakket som en enkelt API med én endepunkt. Du trenger ikke bygge orkestrerings-logikken selv. Det senker terskelen. Men det tar ikke bort grunnspørsmålet: er det verdt 5x prisen?

Basert på testene som foreligger per 24. juni 2026: som oftest, nei. Ikke ennå. Systemet er klart mer modent enn OpenRouters Fusion-API som kom tidligere, og det er et genuint teknologisk fremskritt innen lært orkestrering. Men den praktiske nytteverdien versus å kjøre en enkelt velvalgt modell er ennå ikke demonstrert på en måte som rettferdiggjør femdobling av kostnaden for vanlige arbeidsflyter.

Det kan endre seg. Orkestrerings-lag blir bedre. Modell-poolene som Fugu ruter til blir bedre. Og kanskje er det neste generasjon som faktisk leverer merverdien. Men det er ikke en grunn til å betale for hype du kan utsette å teste selv.

Ofte stilte spørsmål

Hva er Sakana Fugu Ultra, og er det en ny AI-modell?

Fugu Ultra er ikke en frontier-modell i seg selv, men et orkestrerings-system: én API som ruter oppgaver til etablerte modeller som Claude Opus 4.8, GPT-5.5 og Gemini 3.1 Pro, og syr svarene sammen. Det er laget av det japanske AI-selskapet Sakana AI og lansert 24. juni 2026 via OpenRouter til $5/$30 per million tokens.

Koster Fugu Ultra mer enn å bruke Opus 4.8 eller GPT-5.5 direkte?

Ja, betydelig mer. I ett testløp med 38 oppgaver kostet Fugu Ultra rundt $50 mot $10 for Opus 4.8 alene – omtrent 5x dyrere. Årsaken er at all intern kommunikasjon mellom orkestratoren og frontier-modellene faktureres som vanlige tokens.

Slår Fugu Ultra Fable 5 i praksis?

Nei, ikke i testene som foreligger. Benchmarkene ser sterkere ut, men reelle head-to-head-tester viser at en enkelt frontier-modell som GPT-5.5 eller Opus kjørt direkte ofte gir bedre resultat til lavere pris og kortere ventetid. Fugu vinner på noen spesifikke benchmark-typer, men ikke på brede oppgaver.

Kan Fugu Ultra brukes via OpenRouter?

Ja. Fugu Ultra er tilgjengelig via OpenRouter med OpenAI-kompatibel API – du bytter bare base-URL. Merk at enkelte europeiske regioner er blokkert foreløpig.

Fugu Ultra lover Fable-ytelse – men er det egentlig en ny modell?

Neste

DFlash: slik kan spekulativ dekoding gi deg opptil 6x raskere AI-inferens

Skribent

Jan Sverre Bauge

tagger

Del artikkel

Innhold Vis

Hva er egentlig Fugu Ultra?

Pris og tilgang: regnestykket som forklarer alt

Tre tester, samme konklusjon

Hvorfor ser benchmarkene så bra ut?

Hva Fugu Ultra faktisk kan være verdt

Eksportkontroll og det japanske aspektet

Orkestrering er ikke nytt – men én API er praktisk

Ofte stilte spørsmål

Legg igjen en kommentar Avbryt svar

Claude AI – pris, funksjoner og norsk guide (2026)

Claude Code Pris 2026 – Hva Koster Det Egentlig?

OpenAI svarer med GPT-5.3 Codex — selvforbedrende AI som bygget seg selv

ChatGPT Norsk Guide – Slik Kommer Du i Gang (2026)

Glutenfri sitronkake – min beste oppskrift

Amazon droppet Sam Altman-filmen etter 50 milliarder til OpenAI – nå vil ingen ha den

Suno AI – 150 Låter Testet: Hva Funker og Hva Er Bortkastet Tid

Claude AI – pris, funksjoner og norsk guide (2026)

Suno AI Copyright 2026 – Opphavsrett og Rettigheter for AI-Musikk

Glutenfri sitronkake – min beste oppskrift

Kaffegrut i Hagen – Slik Bruker Du Det som Gjødsel og Skadedyrbekjemper

Sterk Chili Kaffe

Stekt Kylling i Airfryer

Fugu Ultra lover Fable-ytelse – men er det egentlig en ny modell?

Neste

Skribent

tagger

Del artikkel

Innhold Vis

Hva er egentlig Fugu Ultra?

Pris og tilgang: regnestykket som forklarer alt

Tre tester, samme konklusjon

Hvorfor ser benchmarkene så bra ut?

Hva Fugu Ultra faktisk kan være verdt

Eksportkontroll og det japanske aspektet

Orkestrering er ikke nytt – men én API er praktisk

Ofte stilte spørsmål

Legg igjen en kommentar Avbryt svar

Meld deg på nyhetsbrevet

Du liker kanskje denne også