Kimi Attention Residuals – slik løser de et tiår gammelt problem i alle AI-modeller
Kimi-teamet fra Moonshot AI har publisert Attention Residuals – en drop-in-erstatning for standard residual connections i transformer-modeller. Arkitekturen forbedrer GPQA-Diamond med 7,5 poeng og tilsvarer 25% mer treningsberegning – gratis.