Innhold Vis
Darwin-35B-A3B-Opus er en åpen modell laget av SeaWolf-AI og VIDRAFT_LAB ved å smelte sammen to svært ulike foreldremodeller: Qwen3.5-35B-A3B og en Claude 4.6 Opus-destillert variant. Resultatet er en MoE-modell (Mixture-of-Experts) med 35 milliarder totale parametere, men bare 3 milliarder aktive per token – noe som gjør den rask nok til å kjøre på forbrukerhardware. Det morsomme er at de kaller det «barnet som overgikk begge foreldrene».
Merging-scenen i open source AI-miljøet er spennende og kaotisk på en gang. Noen prøver å kombinere to modeller ved å bare ta gjennomsnittet av vektene og håpe på det beste. Det funker av og til, men like gjerne ender du opp med en modell som er dårlig på alt i stedet for god på alt. Det SeaWolf-AI hevder å ha gjort med sitt Darwin V5-rammeverk er mer kirurgisk enn det.
Her er hva som skjer i dette merget, og hvorfor det er verdt å følge med.
Hva er Darwin V5 og Model MRI-teknikken?
Den interessante biten med Darwin-35B er ikke selve modellen, men teknikken bak. SeaWolf-AI beskriver Darwin V5 som et merging-rammeverk som gjør en slags «CT-scan» av foreldremodellene lag for lag – derav kallenavnet Model MRI. I stedet for å bare blande parametere på tvers av hele modellen, analyserer systemet hvert lag separat og avgjør hva som faktisk bidrar til ytelsen.
Problemet de støtte på med Claude 4.6 Opus-destillaten var noe de kaller «døde eksperter» – MoE-eksperter som aldri aktiveres under inferens. Det skjer av og til etter destillasjonsprosessen. Du ender opp med en modell der deler av kapasiteten aldri brukes, som en V8-motor som bare kjører på fire sylindre. Resultatet er at du betaler VRAM-prisen for 35 milliarder parametere, men bare får nytte av en delmengde av dem.
Darwin V5-løsningen var å transplantere fungerende MoE-eksperter fra Qwen3.5-moren (far i deres terminologi) inn i Opus-destillat-strukturen, og erstatte de døde ekspertene. Det er mer sofistikert enn et vanlig lineært merge, og tilnærmingen minner om det som skjer i MoE-kompresjonsforskning der expert output merging brukes til å bevare ytelse mens man reduserer parametertellingen.
Hvem er foreldremodellene?
Qwen3.5-35B-A3B er Alibabas MoE-modell fra tidlig 2026. 35 milliarder totale parametere, 3 milliarder aktive per token, 262K tokens kontekstvindu. Jeg har skrevet om Qwen-familiens evner til abstraksjon tidligere – de er ikke alltid sterke på alt, men MoE-arkitekturen gjør dem usedvanlig raske. 111 tokens per sekund på en RTX 3090 for 35B-A3B er tall som imponerer.
Moren er en Claude 4.6 Opus reasoning-destillat, nærmere bestemt Jackrong sin Qwen3.5-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled. Denne er trent med LoRA-basert SFT på Claude Opus reasoning-trajektorier – altså er det Claude Opus sin tenkestil, ikke selve modellvektene, som er overført. Treningsdatasettet inkluderer nohurry/Opus-4.6-Reasoning-3000x-filtered med kuraterte Claude 4.6 reasoning-sekvenser.
Problemet Jackrong-destillaten hadde: etter fine-tuning dukket det opp en del MoE-eksperter som aldri aktiveres. God reasoning, men noe kapasitet som bare sitter der ubrukt.

Hva sier LocalLLaMA-miljøet?
Responsen på LocalLLaMA-tråden var genuint nysgjerrig. Community-merging er ikke nytt – det har skjedd siden Mistral 7B-dagene. Men Model MRI-konseptet fikk oppmerksomhet fordi det adresserer et reelt problem i MoE-destillasjonsøyeblikket: du kan miste effektivitet gjennom prosessen, og det er ikke alltid åpenbart hvor.
Det som gjør dette ekstra interessant er kombinasjonen av to fundamentalt forskjellige utgangspunkter. Qwen3.5 er sterkt på generell oppgaveløsning og er spesielt rask på grunn av MoE-arkitekturen. Claude 4.6 Opus er kjent for strukturert reasoning, planlegging og nyansert instruksjonsforståelse. Spørsmålet er om et merge faktisk overfører disse egenskapene, eller om du bare ender opp med et gjennomsnitt av begge sine svakheter.
Tidlige brukertester i tråden antydet at Darwin-modellen klarte seg bra på reasoning-oppgaver – bedre enn base-Qwen3.5-35B-A3B – noe som tyder på at Opus-destillasjonen faktisk er bevart i merget. Det er det sekundæresultat man ser etter.
Hvorfor er dette relevant for lokale modeller?
35B MoE med 3B aktive parametere er et søtt punkt for forbrukerhardware. Hvis du har en RTX 3090 eller RTX 4090, er dette en modell du faktisk kan kjøre lokalt med fornuftig kvantisering. Har du satt opp Ollama, er oppsett rett frem så snart en GGUF-kvantisering er tilgjengelig på Hugging Face.
Det relevante spørsmålet er ikke om Darwin-35B er bedre enn Claude 4.6 Opus. Det er det nok ikke. Men det er heller ikke sammenligningen. Sammenligningen er: kan du kjøre en modell lokalt, gratis, uten å sende data til skyen, som har absorbert noe av Claude Opus sin reasoning-stil? Det er der dette blir interessant.
Jeg er litt skeptisk til den store entusiasmen rundt alle community-merges. Mange av dem lever opp til navnene sine i readme-filene, men leverer ikke noe spesielt i praksis. Det er vanskelig å vite uten å kjøre det selv. Darwin-teknikken virker mer gjennomtenkt enn de fleste, men det gjenstår å se om Model MRI-tilnærmingen holder det den lover over en bredere oppgavesammensetning.

Hva skjer med MoE-merging fremover?
Trenden er tydelig: modell-merging beveger seg fra hobbyprosjekter til noe mer systematisk. Darwin V5 er ett eksempel. ACM Computing Surveys 2026 dekker nå model merging som et eget forskningsområde, noe som sier noe om at feltet har modnet.
Det som er interessant med lag-for-lag-analysen er at det potensielt kan løse et av de klassiske problemene med merging: du vet sjelden hvilke lag som faktisk bidrar til hvilke evner. Lineær interpolasjon av hele modellen er som å blande to viner og håpe resultatet er bedre enn begge – av og til funker det, men det er ikke presisjon. Hvis Model MRI faktisk kartlegger hvilke lag og eksperter som er ansvarlige for hva, åpner det for mye mer målrettet sammensetning av kapasiteter.
Modellfamilier som Mistral Small 4 viser at MoE-arkitektur er kommet for å bli i middelklasse-segmentet – en stor modell i intelligens, en liten modell i inferenskostnad. Darwin-35B-A3B-Opus er et community-forsøk på å legge til en ekstra ingrediens: Claude Opus sin reasoning. Om det faktisk funker bedre enn summen av delene, er noe vi vil se tester på i løpet av de neste ukene ettersom flere kjører det.
Modellen er tilgjengelig via SeaWolf-AI og VIDRAFT_LAB på Hugging Face. GGUF-kvantiseringer for Ollama og LM Studio er ventet å dukke opp raskt – det er normalt innen 24-48 timer etter at community-merges av denne typen slipper.
Jeg liker hva SeaWolf-AI prøver å gjøre med Darwin V5. Model MRI som konsept er intuitivt riktig – hvis du ikke vet hva hvert lag bidrar med, er merging mer gambling enn ingeniørkunst. Spørsmålet er om de faktisk har knekket koden, eller om det er et godt navn på noe som fremdeles er mer kunst enn vitenskap. Kjør det og se selv.