Google har nettopp lansert en ny funksjon i Gemini 3 Flash som endrer hvordan AI forstår bilder. I stedet for å bare se på et bilde én gang, kan AI-en nå zoome inn, inspisere detaljer og manipulere bilder steg for steg.

Fra passiv til aktiv bildeforståelse

Tradisjonelle AI-modeller behandler bilder som et statisk øyeblikksbilde. De ser på bildet én gang og gjør sitt beste for å beskrive hva de ser. Problemet? Hvis modellen går glipp av en liten detalj — som et serienummer på en mikrobrikke eller et skilt i bakgrunnen — må den gjette.

Agentic Vision snur dette på hodet. I stedet for å bare observere, kan Gemini 3 Flash nå aktivt undersøke bilder som en detektiv.

Slik fungerer det

Agentic Vision bruker en «Think, Act, Observe»-loop:

  1. Think (Tenk): Modellen analyserer spørsmålet ditt og bildet, og lager en plan for hvordan den skal finne svaret.
  2. Act (Handle): Modellen skriver og kjører Python-kode for å manipulere bildet — zoome inn, rotere, beskjære, eller legge til markeringer.
  3. Observe (Observer): Det transformerte bildet legges til i modellens kontekst, slik at den kan inspisere detaljene med bedre forståelse.

Praktiske bruksområder

Zooming og inspeksjon

Gemini 3 Flash kan automatisk zoome inn når den oppdager at fine detaljer er viktige. Selskapet PlanCheckSolver.com, som validerer byggetegninger, rapporterer 5% bedre nøyaktighet ved å bruke denne funksjonen til å iterativt inspisere høyoppløselige tegninger.

Bildeannotering

I stedet for bare å beskrive hva den ser, kan modellen nå tegne direkte på bildet. Skal du telle fingre på en hånd? Modellen tegner bokser rundt hver finger og nummererer dem — en «visuell kladdebok» som sikrer nøyaktige svar.

Visuell matematikk og plotting

Agentic Vision kan lese tabeller og kjøre Python-kode for å visualisere dataene. I stedet for å gjette på beregninger, offloader modellen matematikken til et deterministisk Python-miljø. Resultatet er verifiserbare svar, ikke hallusinasjoner.

Hvorfor dette er viktig

Dette er et stort skritt mot mer pålitelig AI. Ved å kombinere visuell forståelse med kodekjøring, kan Gemini 3 Flash:

  • Verifisere sine egne svar — ikke bare gjette
  • Håndtere komplekse bilder med mange detaljer
  • Vise arbeidet sitt gjennom kode og annotasjoner

Google varsler at dette bare er begynnelsen. Fremtidige oppdateringer vil inkludere flere verktøy, som websøk og omvendt bildesøk, samt støtte for flere modellstørrelser.

Prøv det selv

Agentic Vision er tilgjengelig nå gjennom Gemini API i Google AI Studio og Vertex AI. Du kan også prøve det i Gemini-appen ved å velge «Thinking» fra modellmenyen.

Demo: Google AI Studio Demo

Dokumentasjon: Developer Docs


Google fortsetter å pushe grensene for hva AI kan gjøre med bilder. Agentic Vision er et godt eksempel på hvordan fremtidens AI ikke bare vil observere verden — den vil aktivt utforske den.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

Meld deg på nyhetsbrevet

Få oppdateringer om AI nyhetene rett i inboxen!

Du liker kanskje denne også
Jan Sverre styrer et digitalt kontrollpanel omgitt av Claude AI-symboler og glødende lysstriper i et mørkt rom

Claude AI – pris, funksjoner og norsk guide (2026)

Alt om Claude AI i 2026 – priser i norske kroner, Claude Pro vs Max, Claude Code, og ærlig sammenligning med ChatGPT. Komplett norsk guide fra en som bruker Claude daglig.
Gpt53 codex

OpenAI svarer med GPT-5.3 Codex — selvforbedrende AI som bygget seg selv

Innhold Vis Hva er GPT-5.3 Codex?Fra kodeskriver til digital arbeiderKappløpet intensiveresMer drama…
Jan Sverre Bauge holder en gammel stovete eske med gulnede dikt fra sin tipp-tipp-oldefar Gustav Johan Carlen

Min tipp-tipp-oldefars glemte dikt – funnet i en støvete eske

Min søster fant 33 håndskrevne dikt i en støvete eske i garasjen. Forfatteren var Gustav Johan Carlen – vår tipp-tipp-oldefar, en norsk tater som levde på 1800-tallet. Hans ord gir et sjeldent innblikk i livet som reisende i Norge.
Jan Sverre Bauge jobber med LTX Video 2 AI-videogenerering i sitt hjemmestudio

LTX Video 2: Den lokale video-AI-modellen som faktisk fungerer

LTX Video 2 er en open source video-AI som kjører lokalt på forbruker-hardware. Jeg testet den ved å lage en komplett AI-generert skrekkhistorie.