Jan Sverre inspiserer en AI-modellplan der MTP-seksjonen er merket som utilgjengelig og låst til LiteRT

Gemma 4 og MTP – Google fjernet ytelsesboost fra offentlig modell

Google bekreftet via Hugging Face at Multi-Token Prediction er fjernet fra de offentlige Gemma 4-modellene. Den fulle versjonen med MTP finnes bare i LiteRT-formatet – som har 8 000 nedlastninger mot over én million for GGUF og safetensors. DeepSeek og Qwen gjorde det ikke slik.
Jan Sverre reiser gjennom tid omgitt av glødende tokens og ord - illustrasjon av Multi-Token Prediction og speculative decoding

Slik kan AI-modeller tidsreise – MTP og speculative decoding forklart

Hva er speculative decoding og Multi-Token Prediction (MTP)? Forklaring på hvordan AI-modeller kan generere tekst 2-3x raskere ved å forutsi tokens fremover – og hvilke modeller som har det innebygd i dag.