Google lanserer Agentic Vision: AI som aktivt utforsker bilder

Innhold Vis

Google har nettopp lansert en ny funksjon i Gemini 3 Flash som endrer hvordan AI forstår bilder. I stedet for å bare se på et bilde én gang, kan AI-en nå zoome inn, inspisere detaljer og manipulere bilder steg for steg.

Fra passiv til aktiv bildeforståelse

Tradisjonelle AI-modeller behandler bilder som et statisk øyeblikksbilde. De ser på bildet én gang og gjør sitt beste for å beskrive hva de ser. Problemet? Hvis modellen går glipp av en liten detalj — som et serienummer på en mikrobrikke eller et skilt i bakgrunnen — må den gjette.

Agentic Vision snur dette på hodet. I stedet for å bare observere, kan Gemini 3 Flash nå aktivt undersøke bilder som en detektiv.

Slik fungerer det

Agentic Vision bruker en «Think, Act, Observe»-loop:

Think (Tenk): Modellen analyserer spørsmålet ditt og bildet, og lager en plan for hvordan den skal finne svaret.
Act (Handle): Modellen skriver og kjører Python-kode for å manipulere bildet — zoome inn, rotere, beskjære, eller legge til markeringer.
Observe (Observer): Det transformerte bildet legges til i modellens kontekst, slik at den kan inspisere detaljene med bedre forståelse.

Praktiske bruksområder

Zooming og inspeksjon

Gemini 3 Flash kan automatisk zoome inn når den oppdager at fine detaljer er viktige. Selskapet PlanCheckSolver.com, som validerer byggetegninger, rapporterer 5% bedre nøyaktighet ved å bruke denne funksjonen til å iterativt inspisere høyoppløselige tegninger.

Bildeannotering

I stedet for bare å beskrive hva den ser, kan modellen nå tegne direkte på bildet. Skal du telle fingre på en hånd? Modellen tegner bokser rundt hver finger og nummererer dem — en «visuell kladdebok» som sikrer nøyaktige svar.

Visuell matematikk og plotting

Agentic Vision kan lese tabeller og kjøre Python-kode for å visualisere dataene. I stedet for å gjette på beregninger, offloader modellen matematikken til et deterministisk Python-miljø. Resultatet er verifiserbare svar, ikke hallusinasjoner.

Hvorfor dette er viktig

Dette er et stort skritt mot mer pålitelig AI. Ved å kombinere visuell forståelse med kodekjøring, kan Gemini 3 Flash:

Verifisere sine egne svar — ikke bare gjette
Håndtere komplekse bilder med mange detaljer
Vise arbeidet sitt gjennom kode og annotasjoner

Google varsler at dette bare er begynnelsen. Fremtidige oppdateringer vil inkludere flere verktøy, som websøk og omvendt bildesøk, samt støtte for flere modellstørrelser.

Prøv det selv

Agentic Vision er tilgjengelig nå gjennom Gemini API i Google AI Studio og Vertex AI. Du kan også prøve det i Gemini-appen ved å velge «Thinking» fra modellmenyen.

Demo: Google AI Studio Demo

Dokumentasjon: Developer Docs

Google fortsetter å pushe grensene for hva AI kan gjøre med bilder. Agentic Vision er et godt eksempel på hvordan fremtidens AI ikke bare vil observere verden — den vil aktivt utforske den.

Google lanserer Agentic Vision: AI som aktivt utforsker bilder

Neste

Møt Reachy Mini: Hugging Face sin søte AI-robot til $299

Skribent

Jan Sverre Bauge

Del artikkel

Innhold Vis

Fra passiv til aktiv bildeforståelse

Slik fungerer det

Praktiske bruksområder

Zooming og inspeksjon

Bildeannotering

Visuell matematikk og plotting

Hvorfor dette er viktig

Prøv det selv

Legg igjen en kommentar Avbryt svar

Claude AI – pris, funksjoner og norsk guide (2026)

OpenAI svarer med GPT-5.3 Codex — selvforbedrende AI som bygget seg selv

Min tipp-tipp-oldefars glemte dikt – funnet i en støvete eske

LTX Video 2: Den lokale video-AI-modellen som faktisk fungerer

Afroman vant – politiet krevde 4 millioner, juryen ga dem null

PewDiePie AI Council – Da Supreme Leader ble forrÅdt av sine egne

Suno AI – 150 Låter Testet: Hva Funker og Hva Er Bortkastet Tid

Suno AI Copyright 2026 – Opphavsrett og Rettigheter for AI-Musikk

Jeg testet Nano Banana Pro: AI som faktisk skriver norsk i bilder

Kaffegrut i Hagen – Slik Bruker Du Det som Gjødsel og Skadedyrbekjemper

Sterk Chili Kaffe

Stekt Kylling i Airfryer

Kaffekaramell

Google lanserer Agentic Vision: AI som aktivt utforsker bilder

Neste

Skribent

Del artikkel

Innhold Vis

Fra passiv til aktiv bildeforståelse

Slik fungerer det

Praktiske bruksområder

Zooming og inspeksjon

Bildeannotering

Visuell matematikk og plotting

Hvorfor dette er viktig

Prøv det selv

Legg igjen en kommentar Avbryt svar

Meld deg på nyhetsbrevet

Du liker kanskje denne også