AI-modeller som forbedrer seg selv uten menneskeskrevet treningsdata
Liten AI-modell lærte seg selv å kode – nådde 80 % på HumanEval
En utvikler lot en liten AI-modell trene på sine egne feil med GRPO og verifiable rewards – uten menneskeskrevet data. Resultatet: 80 % på HumanEval og bedre matte enn GPT-3.5.