Agentic vision featured

Google har nettopp lansert en ny funksjon i Gemini 3 Flash som endrer hvordan AI forstår bilder. I stedet for å bare se på et bilde én gang, kan AI-en nå zoome inn, inspisere detaljer og manipulere bilder steg for steg.

Fra passiv til aktiv bildeforståelse

Tradisjonelle AI-modeller behandler bilder som et statisk øyeblikksbilde. De ser på bildet én gang og gjør sitt beste for å beskrive hva de ser. Problemet? Hvis modellen går glipp av en liten detalj — som et serienummer på en mikrobrikke eller et skilt i bakgrunnen — må den gjette.

Agentic Vision snur dette på hodet. I stedet for å bare observere, kan Gemini 3 Flash nå aktivt undersøke bilder som en detektiv.

Slik fungerer det

Agentic Vision bruker en «Think, Act, Observe»-loop:

  1. Think (Tenk): Modellen analyserer spørsmålet ditt og bildet, og lager en plan for hvordan den skal finne svaret.
  2. Act (Handle): Modellen skriver og kjører Python-kode for å manipulere bildet — zoome inn, rotere, beskjære, eller legge til markeringer.
  3. Observe (Observer): Det transformerte bildet legges til i modellens kontekst, slik at den kan inspisere detaljene med bedre forståelse.

Praktiske bruksområder

Zooming og inspeksjon

Gemini 3 Flash kan automatisk zoome inn når den oppdager at fine detaljer er viktige. Selskapet PlanCheckSolver.com, som validerer byggetegninger, rapporterer 5% bedre nøyaktighet ved å bruke denne funksjonen til å iterativt inspisere høyoppløselige tegninger.

Bildeannotering

I stedet for bare å beskrive hva den ser, kan modellen nå tegne direkte på bildet. Skal du telle fingre på en hånd? Modellen tegner bokser rundt hver finger og nummererer dem — en «visuell kladdebok» som sikrer nøyaktige svar.

Visuell matematikk og plotting

Agentic Vision kan lese tabeller og kjøre Python-kode for å visualisere dataene. I stedet for å gjette på beregninger, offloader modellen matematikken til et deterministisk Python-miljø. Resultatet er verifiserbare svar, ikke hallusinasjoner.

Hvorfor dette er viktig

Dette er et stort skritt mot mer pålitelig AI. Ved å kombinere visuell forståelse med kodekjøring, kan Gemini 3 Flash:

  • Verifisere sine egne svar — ikke bare gjette
  • Håndtere komplekse bilder med mange detaljer
  • Vise arbeidet sitt gjennom kode og annotasjoner

Google varsler at dette bare er begynnelsen. Fremtidige oppdateringer vil inkludere flere verktøy, som websøk og omvendt bildesøk, samt støtte for flere modellstørrelser.

Prøv det selv

Agentic Vision er tilgjengelig nå gjennom Gemini API i Google AI Studio og Vertex AI. Du kan også prøve det i Gemini-appen ved å velge «Thinking» fra modellmenyen.

Demo: Google AI Studio Demo

Dokumentasjon: Developer Docs


Google fortsetter å pushe grensene for hva AI kan gjøre med bilder. Agentic Vision er et godt eksempel på hvordan fremtidens AI ikke bare vil observere verden — den vil aktivt utforske den.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

You May Also Like

Step-3.5-Flash slår DeepSeek og GLM — og er gratis på OpenRouter

Step-3.5-Flash fra kinesiske Stepfun slår både DeepSeek V3.2 og GLM-4.7 på viktige benchmarks – og er nå gratis tilgjengelig på OpenRouter.

Kimi K2.5: Kinas svar på de store AI-modellene

Moonshot AI har sluppet Kimi K2.5 – en åpen kildemodell som dominerer benchmarks og koster en brøkdel av konkurrentene.

LTX Video 2: Den lokale video-AI-modellen som faktisk fungerer

LTX Video 2 er en open source video-AI som kjører lokalt på forbruker-hardware. Jeg testet den ved å lage en komplett AI-generert skrekkhistorie.

OpenAI svarer med GPT-5.3 Codex — selvforbedrende AI som bygget seg selv

Kun 15 minutter etter at Anthropic slapp Claude Opus 4.6, kontret OpenAI…