Google lanserte Gemini Embedding 2 den 10. mars 2026 — og det er den første nativt multimodale embedding-modellen i markedet. Den plasserer tekst, bilder, video, lyd og PDF-er i ett felles vektorrom. Det høres kanskje abstrakt ut, men for alle som jobber med RAG er dette faktisk en stor deal.

Jeg bruker Gemini embeddings i egne RAG-systemer og har fulgt denne modell-serien tett. Da jeg så lanseringen tirsdag var reaksjonen min omtrent: «Ja. Endelig.» Ikke fordi det er perfekt — det finnes rimelige tekstalternativer — men fordi multimodal RAG til nå har vært et håpløst lappeteppe av separate modeller, ekstra API-kall og manuell koordinering. Gemini Embedding 2 kutter gjennom det.

I denne artikkelen går jeg gjennom hva modellen faktisk kan, tekniske spesifikasjoner som betyr noe i praksis, og når du bør (og ikke bør) velge den fremfor alternativer.

Hva er egentlig en embedding-modell?

Embedding-modeller er ikke chatbots. De er «oversettere» som konverterer innhold — tekst, bilder, lyd — til tall-vektorer. En vektor for «katt» vil ligge nær vektoren for «kattunge» i rommet, langt fra «regjeringen». Dette er grunnmuren i alle RAG-systemer (Retrieval Augmented Generation): systemet søker ikke etter eksakte ord, men etter semantisk mening.

Spørsmålet Gemini Embedding 2 besvarer er: hva skjer når du ikke bare vil søke i tekst, men i bilder, videoer og PDF-filer med grafer — alt på én gang? Til nå har svaret vært: bruk fire forskjellige modeller, koordiner resultater manuelt, og lur deg selv til å tro at det er en pipeline. Med Gemini Embedding 2 er alle fem modaliteter i én felles modell.

Illustrasjon av embedding-vektorer som konverterer tekst, bilder og lyd til punkter i et felles semantisk vektorrom
Embedding-modeller konverterer innhold til tall-vektorer i et felles semantisk rom — grunnmuren i alle RAG-systemer.

Tekniske detaljer som faktisk betyr noe

La meg gå rett på det som er praktisk relevant, ikke bare imponerende på papiret.

Kontekstvindu på 8 192 tokens — det er fire ganger Gemini Embedding 001 (2 048 tokens). I praksis betyr det at du kan sende lengre dokumentchunks uten å dele dem opp, noe som bevarer kontekst og forbedrer søkekvalitet. OpenAI text-embedding-3-large har samme grense, så dette er paritet der — men multimodaliteten er ikke sammenlignbar.

MRL — Matryoshka Representation Learning er en teknikk som lar deg trimme vektordimensjonene ned fra standard 3 072 uten dramatisk tap i søkekvalitet. Praktisk implikasjon: 1 536 dimensjoner gir deg 99,9% av ytelsen på halvparten av lagringsplassen i vektordatabasen. Det er et enkelt valg for de fleste RAG-prosjekter.

Input per request: 6 bilder, 120 sekunder video (uten lyd) eller 80 sekunder med lyd, 80 sekunder lyd alene, 6 PDF-sider og 8 192 tokens tekst. Ikke ubegrenset, men mer enn nok for typiske dokumentarchunks.

MTEB-score — #1 blant kommersielle API-modeller?

Ifølge Googles offisielle lanseringsblogg scorer Gemini Embedding 2 68,17 på MTEB (Massive Text Embedding Benchmark) — bransjens standard for embedding-ytelse. Det plasserer den blant toppen av kommersielle API-løsninger, nest etter Gemini Embedding 001 (68,32).

For sammenligning:

  • OpenAI text-embedding-3-large: 64,60
  • Cohere Embed v4: 65,20
  • Voyage-3-large: 66,80
  • Gemini Embedding 2: 68,17

Men her er det viktig å presisere: open source-modeller som NV-Embed-v2 og Qwen3-Embedding-8B scorer høyere på enkeltbenchmarks. Forskjellen er at de krever egen hosting. For deg som vil ha en API du bare kaller og ikke vil drifte noe selv, er Gemini Embedding 2 det sterkeste alternativet per mars 2026.

Hva er multimodal RAG — og hvorfor er det viktig?

Klassisk RAG er genialt, men det håndterer bare tekst. Problemet er at virkelig nyttig bedriftsinformasjon sjelden er ren tekst. Det er PDF-er med grafer, tekniske håndbøker med bilder, opplæringsvideoer, taleopptak fra møter.

Inntil nå har du hatt to alternativer: ignorer alt som ikke er tekst (taper informasjon), eller bruk separate modeller for hvert format og sys dem manuelt sammen (tidkrevende, skjørt, dyrt). Gemini Embedding 2 gjør noe annet: den legger alle modaliteter inn i det samme vektorrommet. Det betyr at en tekstspørring kan matche et bilde, et videoklipp kan matche en PDF-side, og alt dette skjer i én søkeoperasjon.

Konkrete eksempler på hva dette åpner for:

  • Tekniske håndbøker: En ingeniør stiller et spørsmål om en maskinkomponent → systemet matcher mot både tekstbeskrivelse og produktbilder i håndboken
  • PDF-søk: Søk i årsrapporter, regnskapsdokumenter og tekniske manualer med grafer og tabeller — ikke bare tekstblokker
  • Lyd-til-dokument: Taleopptak fra kundeservice kan matches mot skriftlig dokumentasjon uten mellomsteg for transkripsjon
  • Videosøk: Søk i opplæringsvideoer basert på semantisk innhold

Greia er at dette ikke bare er kul demo-teknologi. Det er den første gangen disse brukstilfellene har en enkel, API-basert løsning uten kompleks koordinering.

Diagram av multimodal RAG-pipeline der tekst, bilder, PDF, lyd og video flyter inn i én felles vektordatabase
Gemini Embedding 2 samler alle fem modaliteter i én vektordatabase — ingen separat koordinering av modeller.

Flerspråklig support — relevant for norsk dokumentasjon

Modellen er trent på over 100 språk og bruker ett felles semantisk rom for alle. Det betyr i praksis at en norsk spørring kan matche engelsk dokumentasjon — uten eksplisitt oversettelse i pipelinen.

Det er mer relevant enn det høres ut. Mange bedrifter har interne dokumenter på norsk og leverandørdokumentasjon på engelsk. Med tidligere embedding-modeller var dette et reelt problem: du måtte enten oversette alt, bygge separate indekser, eller akseptere dårlig søkekvalitet på tvers av språk. Gemini Embedding 2 håndterer dette nativt.

Hva koster Gemini Embedding 2?

Standard API: $0,20 per million tokens ifølge Googles offisielle prisliste. Batch API (ikke tidskritisk): $0,10 per million tokens — halvparten av prisen for batch-indeksering av store dokumentarkiver.

For ren tekst-RAG er Gemini Embedding 001 fremdeles et fornuftig valg: litt bedre MTEB-score, lavere pris, og Generally Available (ikke Preview). Gemini Embedding 2 er riktig valg når du trenger multimodal støtte eller det lengre kontekstvinduet på 8 192 tokens.

OpenAI text-embedding-3-small koster $0,02 — altså 10 ganger billigere. Men den er tekstbasert, og kontekstvinduet er ikke i nærheten. Det er en avveining: for enkle ren-tekst-systemer er OpenAI small klar prisvinner. For alt som involverer bilder, PDF eller lyd er det ikke en reel konkurrent.

GDPR og Vertex AI — viktig presisering

Google AI Studio er gratis og bra for prototyping, men data behandles i USA. For sensitive forretningsdata holder ikke det.

Vertex AI støtter EU-regioner (europe-west1, europe-west4), noe som gjør Gemini Embedding 2 brukbart for GDPR-sensitive brukstilfeller. Hvis du jobber med persondata eller konfidensiell bedriftsinformasjon: bruk Vertex AI med EU-region, ikke Google AI Studio. Alternativet er open source-modeller som kjøres lokalt — da forlater dataene aldri maskinen din.

Slik kommer du i gang

For prototyping via Google AI Studio er det rett frem:

pip install google-generativeai
import google.generativeai as genai

genai.configure(api_key="DIN_API_NØKKEL")

result = genai.embed_content(
    model="models/gemini-embedding-2-preview",
    content="Hva er best praksis for dokumenthåndtering?",
    task_type="RETRIEVAL_QUERY",
    output_dimensionality=1536
)

print(result['embedding'])  # Liste med 1536 tall

1 536 dimensjoner er anbefalingen for de fleste RAG-prosjekter — du beholder 99,9% av ytelsen til halvparten av lagringskostnaden i vektordatabasen.

Viktig: embedding-rommet fra Gemini Embedding 001 og Gemini Embedding 2 er inkompatible. Migrerer du, må all eksisterende data re-embeddes. Det er litt jobb, men for de fleste prosjekter verdt det.

Hvis du vil se mer om hva du kan bygge med n8n og automatisering, sjekk ut artikkelen om community nodes i n8n. For bakgrunn på Gemini-modellserien generelt har jeg dekket Gemini 3.1 Pro og Gemini i hverdagen tidligere.

Konklusjon — når bør du velge Gemini Embedding 2?

Velg Gemini Embedding 2 hvis:

  • Du bygger RAG-systemer som skal håndtere bilder, PDF, lyd eller video
  • Du har blandet norsk/engelsk dokumentasjon og vil unngå oversettingssteg
  • Du trenger det lengre kontekstvinduet (8 192 tokens)
  • Du vil slippe å koordinere separate modeller for forskjellige modaliteter

Hold deg til Gemini Embedding 001 (eller OpenAI text-embedding-3-small) hvis du bare jobber med ren tekst og vil ha laveste mulige pris.

Modellen er i Public Preview, API-navn gemini-embedding-2-preview, tilgjengelig via Google AI Studio og Vertex AI. For alle som jobber seriøst med RAG er den verdt å teste — og for multimodal RAG er det rett og slett ikke noe annet kommersielt alternativ per i dag.

Les: Google Gemini – komplett norsk guide (2026).

1 kommentar
Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

Meld deg på nyhetsbrevet

Få oppdateringer om AI nyhetene rett i inboxen!

Du liker kanskje denne også
Jan Sverre arbeider med Suno AI musikk-generering på datamaskinen, kreativt workspace med hodetelefoner

Suno AI – 150 Låter Testet: Hva Funker og Hva Er Bortkastet Tid

Jeg testet 150 Suno-låter og fant tydelige mønstre. Her er hva som faktisk gir kvalitet, og hva som bare kaster bort tid.
Jan Sverre med headphones og lydmikser i boardroom-møte med forvirrede executives

Suno AI Copyright 2026 – Opphavsrett og Rettigheter for AI-Musikk

Kan du tjene penger på Suno-musikk? Her er en praktisk gjennomgang av rettigheter, risiko og hva du bør avklare før publisering.
Jan Sverre riding a dinosaur in safari outfit, photorealistic AI-generated image demonstrating Nano Banana Pro capabilities

Jeg testet Nano Banana Pro: AI som faktisk skriver norsk i bilder

Endelig! En AI som kan generere norsk tekst i bilder med 94% nøyaktighet. Jeg testet Nano Banana Pro grundig – her er resultatene.
Jan Sverre sitter ved sitt kraftige AI-workstation oppsett med ultrawide skjerm og flere PC-er som kjører Ollama og lokale LLM-modeller

Ollama Guide – Kjør AI Gratis og Lokalt på Din Egen PC (2026)

Komplett guide til Ollama og lokale LLM-er på RTX 4090. Lær quantisering, Hugging Face import, beste modeller (Gemma 3, Qwen 3), GDPR-fordeler og full kostnadskontroll.