Jan Sverre studerer et Mixture of Experts-nettverksdiagram som viser ZAYA1-8B sin selektive parameteraktivering med AMD-hardware i bakgrunnen

ZAYA1-8B – Zyphra sin MoE-modell slår modeller 15 ganger større

ZAYA1-8B fra Zyphra aktiverer bare 760 millioner parametere per inferens, men slår modeller med 119 milliarder parametere på matematikk-benchmarks. Trent ende-til-ende på AMD Instinct MI300x og tilgjengelig under Apache 2.0-lisens.
Jan Sverre ser overrasket på skjermen der Qwen 3.5 4B løser et abstraksjonsproblem som GPT-4 feilet på

Qwen 3.5 4B løser abstraksjonstesten som GPT-4 feilet på

Qwen 3.5 4B er den første lille open source-modellen som konsekvent løser en abstraksjontest der GPT-4, GPT-4o, Gemini 2.5 Flash og store 120B-modeller feiler. Her er testen, hvem som feilet, og hva det betyr for AI-utvikling.