Jan Sverre studerer et dokument med annoterte bounding boxes og strukturert OCR-output

Mistral OCR 4 lansert: dokumenter som vet hvor hvert ord sitter – klar for RAG

Mistral OCR 4 gir deg ikke bare tekst fra dokumenter – den forteller deg nøyaktig hvor på siden hvert ord sitter, hvor sikker den er, og hva slags blokk det er. Det forandrer ganske mye for RAG og agentic pipelines.
Jan Sverre entusiastisk over Gemini Embedding 2 sin multimodale RAG-støtte for tekst, bilder, video og lyd

Gemini Embedding 2 — Googles første multimodale embedding-modell

Gemini Embedding 2 er Googles første nativt multimodale embedding-modell — den plasserer tekst, bilder, video, lyd og PDF i ett felles vektorrom. MTEB-score 68,17, kontekstvindu på 8 192 tokens og støtte for over 100 språk. Her er hva dette betyr for deg som bygger RAG-systemer.