Innhold Vis
PokeClaw er en Android-app som lar Gemma 4 ta kontroll over telefonen din – helt uten sky. Ingen server, ingen API-kall, ingen dataoverføring. AI-modellen kjører direkte på telefonens prosessor via Googles LiteRT. Du skriver en kommando, AI-en leser skjermen, bestemmer hva den skal trykke på, og gjør det. Alt skjer lokalt.
Det dukket opp på Reddit’s r/LocalLLaMA denne uken, og reaksjonen var akkurat det du forventer fra folk som har ventet på dette: stille fascinasjon. Ikke fordi ideen er ny – vi har hatt skybaserte telefon-agenter en stund nå. Men fordi det faktisk fungerer uten at en byte med data forlater telefonen.
Jeg har skrevet om Gemma 4 og hva den kan gjøre – men PokeClaw er den første konkrete demoen jeg har sett som bruker modellen til noe folk faktisk vil ha: autonom kontroll av telefonen, privat, offline, gratis.
Hva er PokeClaw egentlig?
PokeClaw er, ifølge beskrivelsen, «en lomme-versjon av OpenClaw.» Det er en smart formulering. OpenClaw er blitt en gigant – serverbasert, skalerbar, designet for bedrifter og utviklere med infrastruktur. PokeClaw tar konseptet og squisher det inn i en Android-app.
Flyten er enkel: du skriver en kommando. Appen tar et screenshot av skjermen, sender det til Gemma 4-modellen som kjører lokalt, modellen analyserer hva den ser og bestemmer hva som skal trykkes eller skrives. Så gjennomfører den handlingen via Android Accessibility API. Og så gjentar den prosessen til oppgaven er ferdig.
Det tekniske fundamentet er to ting: Gemma 4 E2B (Googles 2-milliard-parameter agent-modell) og LiteRT, Googles edge-inference-rammeverk som er optimalisert for å kjøre store modeller på mobil hardware med minimal minnebruk. Kombinasjonen gjør at modellen bruker under 1,5 GB RAM på noen enheter. Det er ikke lite – men det er innenfor hva en moderne Android-flaggskip håndterer uten å svette.
Hvorfor ingen server er det viktige poenget
Det finnes allerede skybaserte apper som kan kontrollere telefonen din via AI. Google har egne eksperimenter med dette. Apple jobber med det. Det er ikke teknologisk nybrottsarbeid å la en AI-agent klikke rundt på en telefon.
Det som er nybrottsarbeid – i hvert fall i praktisk forstand – er å gjøre det uten en eneste ekstern tilkobling.
Tenk på hva det betyr. En agent som skal hjelpe deg med bankappen din. Eller lege-journalen. Eller e-post med sensitiv informasjon. De fleste vil ikke sende skjermbilder av disse til OpenAIs servere, Googles Cloud, eller noe annet. PokeClaw sender dem ingen steder. Du kan blokkere appen fra internett helt – ifølge Reddit-posten fungerer den identisk uavhengig av nettverkstilgang.
Jeg har skrevet om lokal AI som GDPR-løsning – det prinsippet gjelder dobbelt for en agent som ser alt du gjør på telefonen.

Gemma 4 E2B – modellen som gjør det mulig
Gemma 4 ble lansert av Google 2. april 2026 under Apache 2.0-lisens. Modellen er spesifikt designet for agentic bruk – multi-step planlegging, function calling, strukturert JSON-output. Den støtter over 140 språk og har et 128K token kontekstvindu.
E2B-varianten (effektiv 2-milliard-parameter versjon) er den som er relevant for mobile enheter. Med 2-bit og 4-bit vekter kan den ifølge Googles offisielle dokumentasjon kjøre på under 1,5 GB minne. LiteRT-rammeverket klarer å prosessere 4 000 input-tokens på to distinkte oppgaver på under 3 sekunder på GPU-utstyrte enheter.
Tallene er ikke imponerende i absolutt forstand – en god GPU på server slår dette ettertrykkelig. Men dette er en telefon. I lommen din. Uten WiFi. Det er en annen kategori.
Neste generasjon Gemini Nano (Nano 4, basert på Gemma 4) er ifølge Android Developers Blog 4x raskere enn forrige versjon og bruker 60% mindre batteri. Det er ikke bare markedssnakk – det er nødvendig for at et verktøy som PokeClaw skal være praktisk over tid.
Fungerer det faktisk?
Reddit-tråden er rimelig nøktern. Folk er imponert, men de stiller de riktige spørsmålene: Hvilke oppgaver klarer den? Hvor lang er responstiden? Hva med komplekse apper med mange lagde menyer?
Svaret er, som alltid med tidlig edge-AI: det avhenger. Enkle, repetitive oppgaver – søk i kontakter, sett alarm, send en melding til en bestemt person – er innenfor hva en 2-milliard-parameter modell med skjermtilgang klarer greit. Komplekse flyt-oppgaver med mye kontekst og dynamiske brukergrensesnitt er vanskeligere.
Men det er ikke poenget med en tidlig proof of concept. Poenget er at det går an. Og det går an nå, på hardware folk faktisk har.

Android Accessibility API – den undervurderte byggeklossen
En ting jeg synes er interessant med PokeClaw er at den bruker Android Accessibility API, ikke noe eksotisk root-tilgang eller systemhack. Accessibility-APIet er designet for å hjelpe brukere med funksjonsnedsettelser – det gir apper mulighet til å lese skjerminnhold, simulere trykk, og navigere brukergrensesnittet.
Det betyr at PokeClaw teoretisk sett kan fungere med hvilken som helst app uten at apputvikleren trenger å gjøre noe som helst. Det er en fundamentalt annen tilnærming enn å bygge integrasjoner per app. Og det er årsaken til at dette er interessant for privat bruk: du trenger ikke vente på at banken din, forsikringsselskapet eller staten skal lage en AI-agent-integrasjon. Telefon-agenten ser det du ser, og kan gjøre det du kan gjøre.
Hva betyr dette fremover?
PokeClaw er open source og dukket opp på Reddit uten stor fanfare. Det er typisk for teknologi som faktisk er interessant – ikke en pressmelding fra et milliardselskap, men noen som bare bygde det og delte det.
Jeg tror vi vil se en hel kategori av slike apper vokse frem i løpet av 2026. Forutsetningene er på plass: Gemma 4 er gratis (Apache 2.0), LiteRT er åpen kildekode, Android Accessibility API er dokumentert og tilgjengelig, og telefon-hardware er kraftig nok. Det er bare spørsmål om hvem som bygger hva.
Den interessante konkurransen er ikke mellom skybaserte og lokale agenter – det er mellom de som bygger ting folk faktisk stoler på nok til å gi dem tilgang til bankappen, og de som ikke gjør det. PokeClaw peker i riktig retning på det spørsmålet.
Har du testet PokeClaw eller lignende lokal telefon-agent? Hva er din erfaring – er du komfortabel med å gi en lokal AI tilgang til telefonen, eller er det en terskel som er vanskelig å krysse uansett?