Google har nettopp lansert en ny funksjon i Gemini 3 Flash som endrer hvordan AI forstår bilder. I stedet for å bare se på et bilde én gang, kan AI-en nå zoome inn, inspisere detaljer og manipulere bilder steg for steg.
Fra passiv til aktiv bildeforståelse
Tradisjonelle AI-modeller behandler bilder som et statisk øyeblikksbilde. De ser på bildet én gang og gjør sitt beste for å beskrive hva de ser. Problemet? Hvis modellen går glipp av en liten detalj — som et serienummer på en mikrobrikke eller et skilt i bakgrunnen — må den gjette.
Agentic Vision snur dette på hodet. I stedet for å bare observere, kan Gemini 3 Flash nå aktivt undersøke bilder som en detektiv.
Slik fungerer det
Agentic Vision bruker en «Think, Act, Observe»-loop:
- Think (Tenk): Modellen analyserer spørsmålet ditt og bildet, og lager en plan for hvordan den skal finne svaret.
- Act (Handle): Modellen skriver og kjører Python-kode for å manipulere bildet — zoome inn, rotere, beskjære, eller legge til markeringer.
- Observe (Observer): Det transformerte bildet legges til i modellens kontekst, slik at den kan inspisere detaljene med bedre forståelse.
Praktiske bruksområder
Zooming og inspeksjon
Gemini 3 Flash kan automatisk zoome inn når den oppdager at fine detaljer er viktige. Selskapet PlanCheckSolver.com, som validerer byggetegninger, rapporterer 5% bedre nøyaktighet ved å bruke denne funksjonen til å iterativt inspisere høyoppløselige tegninger.
Bildeannotering
I stedet for bare å beskrive hva den ser, kan modellen nå tegne direkte på bildet. Skal du telle fingre på en hånd? Modellen tegner bokser rundt hver finger og nummererer dem — en «visuell kladdebok» som sikrer nøyaktige svar.
Visuell matematikk og plotting
Agentic Vision kan lese tabeller og kjøre Python-kode for å visualisere dataene. I stedet for å gjette på beregninger, offloader modellen matematikken til et deterministisk Python-miljø. Resultatet er verifiserbare svar, ikke hallusinasjoner.
Hvorfor dette er viktig
Dette er et stort skritt mot mer pålitelig AI. Ved å kombinere visuell forståelse med kodekjøring, kan Gemini 3 Flash:
- Verifisere sine egne svar — ikke bare gjette
- Håndtere komplekse bilder med mange detaljer
- Vise arbeidet sitt gjennom kode og annotasjoner
Google varsler at dette bare er begynnelsen. Fremtidige oppdateringer vil inkludere flere verktøy, som websøk og omvendt bildesøk, samt støtte for flere modellstørrelser.
Prøv det selv
Agentic Vision er tilgjengelig nå gjennom Gemini API i Google AI Studio og Vertex AI. Du kan også prøve det i Gemini-appen ved å velge «Thinking» fra modellmenyen.
Demo: Google AI Studio Demo
Dokumentasjon: Developer Docs
Google fortsetter å pushe grensene for hva AI kan gjøre med bilder. Agentic Vision er et godt eksempel på hvordan fremtidens AI ikke bare vil observere verden — den vil aktivt utforske den.