AI-verdenen er i konstant utvikling, og nå har vi fått en ny utfordrer som rister opp i markedet. MiniMax M2.5 er her, og den lover å levere ytelse på nivå med de beste modellene, men til en pris som er uhørt lav. Dette kan revolusjonere måten vi bruker AI-agenter på, og åpne for helt nye bruksområder.
I følge utviklerne er M2.5 designet for å drive komplekse AI-agenter uten at man trenger å bekymre seg for kostnadene. Tidligere har prisen vært en stor barriere for mange, men med M2.5 kan dette endre seg. Modellen er etterfølgeren til M2.1, som igjen var en forbedring av M2, og den bygger videre på en allerede solid plattform.
MiniMax M2.5: Ytelse som utfordrer de beste
Det mest oppsiktsvekkende med MiniMax M2.5 er at den i enkelte tilfeller matcher eller til og med slår Claude Opus 4.6, som er en av de ledende AI-modellene på markedet. Claude Opus 4.5 var lenge gullstandarden, spesielt innen koding, men nå har M2.5 vist at det er mulig å oppnå tilsvarende resultater til en langt lavere pris. Dette er spesielt imponerende når man tar i betraktning at M2.5 er en modell med 230 milliarder parametre, som også kan kjøres lokalt.
For utviklere og bedrifter som ønsker å ta i bruk AI-agenter, kan dette være en game-changer. Muligheten til å redusere kostnadene betraktelig uten å ofre ytelsen åpner for nye og innovative applikasjoner. Det er verdt å se på slik kutter du AI-agent-kostnadene med 80% uten å miste kvalitet om du vil lære mer om temaet.
MiniMax har virkelig truffet spikeren på hodet med M2.5. De har klart å kombinere høy ytelse med lav pris, noe som gjør modellen attraktiv for et bredt spekter av brukere.
En revolusjon innen kostnadseffektiv AI
Prisen på MiniMax M2.5 er det som virkelig skiller den fra konkurrentene. Det koster kun $1 per time å kjøre modellen kontinuerlig med en hastighet på 100 tokens per sekund. Hvis man reduserer hastigheten til 50 tokens per sekund, faller prisen til bare $0,30 per time. Til sammenligning er M2.5 omtrent 30 ganger billigere enn Opus, noe som gjør den til et svært attraktivt alternativ for de som ønsker å redusere kostnadene.
Denne kostnadseffektiviteten åpner for en rekke nye muligheter. For eksempel kan man nå kjøre komplekse AI-agenter kontinuerlig uten å bekymre seg for at kostnadene skal løpe løpsk. Dette er spesielt viktig for applikasjoner som krever sanntidsanalyse og beslutningstaking.
MiniMax sin målsetting er å gjøre intelligent automatisering tilgjengelig for alle, og M2.5 er et stort skritt i riktig retning. Ved å senke kostnadsbarrieren, kan flere bedrifter og enkeltpersoner dra nytte av fordelene med AI.
M2.5 og M2.5-Lightning: To versjoner for ulike behov
MiniMax lanserer to versjoner av modellen: M2.5 og M2.5-Lightning. Begge versjonene har identisk ytelse, men de skiller seg fra hverandre når det gjelder hastighet. M2.5-Lightning har en jevn gjennomstrømning på 100 tokens per sekund, noe som gjør den dobbelt så rask som andre ledende modeller. Dette er ideelt for applikasjoner som krever rask respons og høy gjennomstrømning. Det kan hende du også vil lese om Kimi K2.5: Kinas svar på de store AI-modellene.
Valget mellom M2.5 og M2.5-Lightning avhenger av de spesifikke kravene til applikasjonen. Hvis hastighet er avgjørende, er Lightning-versjonen det beste valget. Hvis kostnad er viktigere, kan den vanlige M2.5-versjonen være et bedre alternativ.
Med disse to versjonene gir MiniMax brukerne fleksibilitet til å velge den modellen som passer best for deres behov. Dette er et smart trekk som vil bidra til å øke populariteten til M2.5.
2 kommentarer
Jeg ser det er noen som hevder at spesielt de kinesiske modellene ofte er trent på spesifikke oppgaveløsninger opp mot benchmarkene og som derfor gir et kunstig høyt resultat. Og på såkalte rebenchmarks, med på forhånd ukjente oppgaver, så skårer de i det nedre skiktet.
Hva tenker du om det?
Benchmark-gaming er definitivt et reelt problem, men det er ikke unikt for kinesiske modeller.
Det har kommet frem at selv vestlige modeller scorer dramatisk høyere på data de har «sett» under trening – StarCoder scoret nesten 5x høyere på lekket testdata. OpenAI har også blitt kritisert for mulig datakontaminering på GPT-4s koding-benchmarks.
Rebenchmarks med ukjente oppgaver er et godt tiltak, og der ser vi ofte at alle modeller dropper – ikke bare de kinesiske. Det handler mer om hvor aggressivt man optimaliserer mot kjente benchmarks.
Jeg skrev litt om benchmark-problematikken her: https://www.jansverre.net/en-spesialpedagog-vurderer-ai-600-kriterier-som-ikke-er-en-benchmark/ – der en ekspert vurderer AI med 600 kriterier som nettopp ikke er standard benchmarks.
Kort sagt: Stol mer på egne tester i ditt bruksområde enn på benchmark-tall.