Innhold Vis
Google Gemma 4 kjører nå nativt på iPhone – helt uten internettforbindelse. Via Googles AI Edge Gallery-app (tilgjengelig i App Store) kan du laste ned og kjøre Gemma 4 E2B direkte på telefonen. Ingen sky, ingen API-kall, ingen data som forlater enheten.
Det er ikke første gang noen får en språkmodell til å kjøre på en mobiltelefon. Men det er første gang det er så enkelt som å laste ned en app fra App Store. Det er en merkbar terskelsenking, og det merker man.
Jeg har fulgt med på edge AI-utviklingen en stund nå – fra da Stable Diffusion ble kjørt lokalt til da de første språkmodellene dukket opp på telefoner. Det som skjer med Gemma 4 er noe annerledes. La meg forklare hvorfor.
Hva er Gemma 4 E2B – og hva gjør den på telefonen din?
Gemma 4 E2B er den minste varianten i Gemma 4-familien. «E2B» betyr roughly 2 milliarder effektive parametere – liten nok til å passe i under 1,5 GB minne på mange enheter. Til sammenligning tar en standard app på telefonen din kanskje 100-500 MB. Modellen er altså stor, men ikke sinnssykt stor.
Det som gjør E2B interessant utover selve størrelsen er at den støtter 128 000 tokens kontekstvindu og multimodale input – altså tekst og bilder. Den er trent med fokus på agentiske evner: planlegge, resonnere, utføre flertrinns oppgaver. Google bygget den spesifikt for on-device kjøring via LiteRT-LM-rammeverket.
Kjøringen på iOS skjer gjennom GPU, ikke Apples Neural Engine. Det er et poeng jeg kommer tilbake til.
Hva er ytelsen i praksis?
Her er det ærlig å dele tallene som faktisk eksisterer. Testing på iPhone 16 Pro viser:
- Prefill-hastighet: 231 tokens per sekund
- Decode-hastighet: 16 tokens per sekund
- Tid til første token: 1,16 sekunder
- Første oppstart: ~20 sekunder (lasting av modell)
16 tokens per sekund i decode er omtrent 12 ord i sekundet. Det er fullt lesbart – ikke imponerende raskt, men ikke frustrerende tregt heller. Tenk deg en menneskelig skriver som skriver litt fort.
Det er et «men» her, og det er ikke lite: iPhone thermal throttles. Etter lengre bruk reduseres ytelsen merkbart fordi telefonen varmes opp og bremser ned GPU for å beskytte hardware. Android-enheter med Qualcomm-brikkesett ser ut til å håndtere dette bedre takket være dedikerte NPU-er (Neural Processing Units). På en Raspberry Pi 5 med Qualcomm Dragonwing IQ8 NPU er decode-hastigheten 31 tokens/s – altså dobbelt så rask.
Google oppgir at modellen prosesserer 4 000 input-tokens på under 3 sekunder på støttede enheter. Det er imponerende for on-device kjøring.

Hvorfor GPU og ikke Neural Engine?
Apple Silicon-brikkene i iPhone har en dedikert Neural Engine (ANE) som er ekstremt energieffektiv for maskinlæringsoppgaver. Den bruker brøkdelen av strømmen GPU gjør for samme operasjon. Så hvorfor kjøres Gemma 4 via GPU?
Enkelt svar: Apple kontrollerer Neural Engine-tilgangen strengt. Tredjepartsutviklere har ikke full tilgang til ANE på samme måte som til GPU. Core ML gir noe tilgang, men Googles LiteRT-LM er ikke integrert med Core ML – det er et eget rammeverk som kommuniserer direkte med GPU via Metal.
Konsekvensen er reell. GPU-kjøring tapper batteriet vesentlig raskere enn Neural Engine-kjøring ville gjort. For korte enkeltforespørsler merker du det lite. For lengre sesjoner eller agentiske kjøringer som tar minutter – da varmer telefonen seg, ytelsen faller, og batteriet tømmes.
Det er ikke dealbreaker for alle brukstilfeller. Men det er ærlig å nevne at dette ikke er den mest effektive måten å kjøre AI-inferens på iPhone.
Hva kan du faktisk bruke dette til?
Det virkelig interessante med Gemma 4 E2B er ikke at den kan svare på spørsmål offline – det klarer mange modeller. Det interessante er de agentiske egenskapene som er bakt inn.
Google viser til to konkrete eksempler fra offisiell blogg: en app som hjelper synshemmede ved å beskrive bilder i sanntid, og autonome arbeidsflyter som kan utføre flertrinns oppgaver uten internett. Begge kjører 100% på enheten.
- Helserelaterte apper som ikke kan sende data til sky (sensitive helseopplysninger)
- Bedriftsapper der data ikke skal forlate enheten av kontraktsmessige grunner
- Offline-scenarier – fly, fjelltur, dårlig dekning
- Lav-latens-applikasjoner der nettverksrundtur er for treg
En utvikler bygde konkret en app for synshemmede brukere og fant at Gemma 4 E2B gir «svært nyttige bildebeskrivelser» og er raskere enn skybaserte alternativer for denne brukssaken. Det er et godt eksempel på hvor offline-AI faktisk gir mening fremfor cloud.
Hva betyr dette for personvern og GDPR?
Dette er kanskje den viktigste vinkelen for mange som bruker AI i jobbsammenheng. Som jeg har skrevet om tidligere i artikkelen om lokal AI og GDPR: når inferens skjer på enheten, forlater ikke dataene enheten. Aldri.
Det betyr at du kan bruke Gemma 4 E2B til å analysere sensitive dokumenter, behandle personopplysninger, eller jobbe med konfidensiell forretningsinformasjon – uten at noe havner hos Google, OpenAI, eller noen annen tredjepart. Ingen behandlingsavtaler. Ingen overføring til tredjeland. Ingen loggføring hos leverandøren.
Det er en genuint sterk personvernposisjon. Spesielt i helsesektoren, juridiske yrker og offentlig forvaltning der dataminimering ikke er valgfritt men lovpålagt.

Er dette en produksjonsklar løsning?
Ærlig svar: ikke helt ennå – men nærmere enn man skulle tro.
Thermal throttling er et reelt problem for langvarige kjøringer. GPU-basert inferens tapper batteri. 20 sekunders oppstartstid er merkbar. Og 16 tokens/s decode er greit nok for chatting, men ikke for all bruk.
Likevel. En multimodal agentisk modell med 128K kontekst som kjører offline på en vanlig forbrukertelefon – det er ikke noe vi hadde for to år siden. Utviklingen går raskt, og det er grunn til å tro at neste generasjon Gemma-modeller vil få bedre integrasjon med Apple Neural Engine etter hvert som Googles LiteRT modnes.
For spesifikke brukstilfeller – offline-scenarier, personvernsensitive data, hjelpemiddelapper – er Gemma 4 E2B allerede nyttig i dag. For å erstatte sky-AI generelt er det fortsatt et stykke igjen.
Jeg er nysgjerrig på hva som skjer når neste iPhone-generasjon kommer med mer minne og bedre termisk design. Gemma-modellene og Apples hardware peker mot hverandre. Det er bare et spørsmål om tid før de møtes på en måte som faktisk fungerer optimalt.
Hva tenker du? Bruker du noen AI-apper på telefonen i dag, eller holder du deg til skyen? Les gjerne mer om hva Gemma 4 er og hva den kan hvis du vil ha mer bakgrunn.