Innhold Vis
OpenAI la til tre nye modeller i Realtime API i mai 2026 – GPT-Realtime-2, GPT-Realtime-Translate og GPT-Realtime-Whisper. Til sammen dekker de tre ting du trenger for å bygge tale-baserte applikasjoner: en konversasjonsagent, en direktetolk og en transkripsjon-motor. Realtime API er nå ute av beta og i generell tilgjengelighet, noe som betyr at det er egnet for produksjonsbruk.
Det har gått seks uker siden lanseringen, og det er verdt å stoppe opp og spørre: er dette noe du faktisk trenger, eller er det nok en API du kan ignorere? Svaret avhenger av hva du holder på med. Jobber du med stemmeassistenter, kundestøtte-botter, live undertekster eller flerspråklig kommunikasjon, er det grunn til å se nærmere.
Modellene skiller seg fra vanlig tale-til-tekst-til-svar-til-tekst-til-tale-pipelines ved at de behandler lyd direkte – uten å gå via transkripsjon som mellomsteg. Det kutter ned på ventetid og beholder mer av det naturlige i en samtale, som pauser, tone og avbrudd.

Hva er GPT-Realtime-2?
GPT-Realtime-2 er flaggskipet i trioen – en fullverdig stemmeagent du kan ha en samtale med i sanntid. OpenAI beskriver den som bygget på GPT-5-klasse-resonnering, noe som betyr at den er mer kapabel enn forgjengeren til å håndtere komplekse instruksjoner midt i en samtale.
Det mest praktiske løftet fra forrige versjon er at kontekstvinduet er firedoblet, fra 32 000 til 128 000 tokens. I praksis betyr det at en lenger samtale holder seg uten å miste tråden. En bot som hjelper med bestillinger, teknisk support eller rådgivning kan jobbe gjennom en hel dialog uten å glemme hva som ble sagt tidlig i samtalen.
Modellen støtter parallelle verktøykall – den kan slå opp i en kalender, søke i en database og sjekke en ordrestatus samtidig, mens du snakker. Den håndterer avbrudd naturlig: sier du noe midt i svaret, stopper den, lytter og justerer uten å bli satt ut. Du kan også styre hvor mye den tenker seg om, via fem nivåer for resonneringsintensitet. Høyere intensitet gir smartere svar, men øker latensen.
Prisen er $32 per million lyd-input-tokens og $64 per million lyd-output-tokens. Med prompt-caching (som er støttet) faller prisen på cachede input-tokens til $0,40 per million – en vesentlig forskjell for applikasjoner med lange samtalehistorikker. For en gjennomsnittlig stemmeassistent i produksjon snakker man reelt om et sted mellom $0,05 og $0,46 per minutt, avhengig av om cachen treffer og hvor mange verktøykall som gjøres.
GPT-Realtime-Translate – for dem som trenger direktetolking
GPT-Realtime-Translate gjør én ting: den oversetter tale direkte til tale i sanntid, uten å gå om mellomlagring eller transkripsjon. Den tar lyd inn, prosesserer mens du snakker, og leverer oversatt lyd ut med minimalt opphold.
Per mai 2026 støtter den 70+ input-språk og 13 output-språk. Modellen er ikke en samtaleagent – den svarer ikke, den stiller ikke oppfølgingsspørsmål, den gjengir bare det som sies på et annet språk.
Det gjør den godt egnet til flerspråklig kundesupport, direkteoversettelse i møter og live undertekster på konferanser. Prisen er $0,034 per minutt, noe som er lavt nok til at det er realistisk å bruke det i produksjon uten å sprenge budsjettet. Viktig å merke seg: det er ikke offisielt bekreftet fra OpenAIs side hvilke 13 output-språk som støttes. Jeg testet litt på Norsk og vil vel si det er samme som i ChatGPT, ikke bra, ikke dårlig.
Én ting er verdt å få med seg før du planlegger noe rundt modellen: guardrailsene er massive. Alt som minner om copyright – gjengi sangtekster, etterligne en kjent stemme, lese opp opphavsrettsbeskyttet materiale – nekter den blankt. Og det stopper ikke der: den er gjennomgående hardt filtrert på både språk og innhold, og avviser en god del som egentlig er ufarlig. For ren kundesupport eller oversettelse merker du det knapt. Men skal du bruke den til noe som krever litt slingringsmonn – underholdning, stemmeskuespill, friere kreativt innhold – treffer du veggen oftere enn du liker. Det er greit å vite før du bygger på den, ikke etterpå.

GPT-Realtime-Whisper – streaming transkripsjon
GPT-Realtime-Whisper er OpenAIs streaming-versjon av Whisper-teknologien. Mens den originale Whisper-modellen behandler ferdig lydklipp i batch, transkriberer denne versjonen mens du snakker – du får tekstdeltas løpende, ikke et ferdig resultat etter at samtalen er over.
Den er designet for applikasjoner der lav forsinkelse er viktigere enn perfekt nøyaktighet på hvert enkelt ord. Undertekster som dukker opp mens møtet pågår, notatverktøy som skriver mens du tenker høyt, arbeidsflyt-automatisering som trigger på nøkkelord – dette er hjemmeplanerne. Du kan justere balansen mellom ventetid og nøyaktighet, avhengig av hva brukssituasjonen krever.
Prisen er $0,017 per minutt – omtrent halvparten av GPT-Realtime-Translate. Det gjør den til det rimeligste alternativet i trioen for enkle transkripsjonsoppgaver. En viktig presisering: GPT-Realtime-Whisper er en ren tale-til-tekst-modell, ikke en agent. Den svarer ikke, den oversetter ikke. Den skriver bare ned hva som sies, løpende.
Hvilken modell passer til hva?
Det er lett å blande disse tre, så det er verdt å være konkret. Her er noen typiske scenarioer og hvilken modell som er riktig:
Du bygger en stemmeassistent eller chatbot med tale: GPT-Realtime-2. Den er den eneste som faktisk kan svare, stille spørsmål tilbake og holde en samtale i gang. Tenk kundeservice-bot, bookingassistent, støtte-agent i en app.
Du trenger sanntidsoversettelse mellom to språk i et møte eller en chat: GPT-Realtime-Translate. Den er skreddersydd for dette og koster vesentlig mindre enn å bruke Realtime-2 til det samme. Bruk den i flerspråklige kundestøttescenarioer eller hybrid-konferanser.
Du vil ha direkteteksting, møtereferat eller en bot som lytter og handler på nøkkelord: GPT-Realtime-Whisper. Billigst, raskest, og gjør én ting godt.
Det er ingenting i veien for å kombinere dem. En applikasjon kan bruke GPT-Realtime-Whisper til å transkribere og GPT-Realtime-2 til å svare. Realtime API støtter nå tre distinkte sesjonstyper – voice-agent, translation og transcription – som gjør det enklere å konfigurere riktig modell for riktig del av flyten.
Hva med lokale og åpne alternativer?
Hvis du vil unngå API-kostnadene er det åpne alternativer å se på, særlig for transkripsjon. Whisper-modellen fra OpenAI har lenge vært tilgjengelig som open source og kjøres lokalt uten API-nøkkel. For norsk finnes NB-Whisper fra Nasjonalbiblioteket, som er finjustert på norske dialekter og gjør det vesentlig bedre enn standard Whisper på norsk tale. Det er et solid alternativ dersom du vil kjøre transkripsjonen lokalt.
For streaming transkripsjon og lokale stemme-AI-modeller finnes det også andre løsninger. Jeg har skrevet om VoxCPM2 og OmniVoice, som kjøres lokalt og er gratis. De er ikke sammenlignbare med GPT-Realtime-2 på evner, men de er et alternativ dersom du ikke vil gjennom OpenAI.
Realtime-2 som samtaleagent er foreløpig vanskelig å replikere med åpne modeller på en måte som fungerer i produksjon. Den helhetlige kombinasjonen av lav latens, avbruddhåndtering, parallelle verktøykall og GPT-5-klasse resonnering er ikke tilgjengelig som en ferdigpakket løsning du kan kjøre selv – ennå. Det vil sannsynligvis endre seg over tid.
For den som er API-interessert er det verdt å sjekke om OpenRouter legger til Realtime API-støtte – per i dag er det primært tekstmodeller der, men det er en plattform å følge med på for den som vil ha ett integrasjonspunkt mot mange leverandører.
Praktisk tilgang og hva du trenger for å komme i gang
Realtime API er tilgjengelig via OpenAIs egne API-endepunkter. Du trenger en API-nøkkel fra platform.openai.com, og tilgangen er i dag begrenset til betalende API-kunder. Realtime API bruker WebSocket-protokollen for å holde forbindelsen åpen under en sesjon – det er annerledes enn vanlige REST-kall og krever litt mer infrastruktur på klient-siden.
For GPT-Realtime-Translate og GPT-Realtime-Whisper er det noe enklere, siden de har en klarere per-minutt-prising som gjør det lettere å forutse kostnader. GPT-Realtime-2 med token-basert prising kan variere mer avhengig av samtale-lengde og verktøykall.
OpenAI har siden lansering lagt til fem nye stemmer (Ash, Ballad, Coral, Sage og Verse) som er mer ekspressive enn de originale og lar deg justere aksent og tone bedre. OpenAI Voice AI-artikkelen min fra mai dekker bakgrunnen for hvordan de løser lav-latens for stemme i stor skala – relevant bakgrunn hvis du er nysgjerrig på infrastrukturen bak.
Ofte stilte spørsmål
Hva er forskjellen på GPT-Realtime-2 og GPT-Realtime-Whisper?
GPT-Realtime-2 er en fullverdig stemmeagent som kan svare, stille spørsmål og bruke verktøy under en samtale. GPT-Realtime-Whisper er kun transkripsjon – den skriver ned hva som sies i sanntid, men svarer ikke. De løser to forskjellige problemer.
Hva koster GPT-Realtime-2 i praksis per minutt?
Det varierer med prompt-caching og antall verktøykall, men realistiske tall er mellom $0,05 og $0,46 per minutt for en typisk stemmeagent i produksjon. Med effektiv caching av samtalehistorikken faller kostnaden vesentlig – lyd-input med cache-treff koster 80 % mindre.
Støtter GPT-Realtime-Translate norsk?
Modellen støtter 70+ input-språk, og norsk er sannsynligvis inkludert basert på Whispers historiske norskstøtte. Output-språkene er begrenset til 13 – det er ikke offisielt bekreftet fra OpenAI at norsk er blant dem. Sjekk OpenAIs dokumentasjon for den oppdaterte listen.
Finnes det åpne alternativer til GPT-Realtime-Whisper for norsk transkripsjon?
Ja – NB-Whisper fra Nasjonalbiblioteket er finjustert på norske dialekter og kjøres lokalt uten API-kostnad. For enkel norsk tale-til-tekst er det et solid alternativ. Det mangler streaming-funksjonaliteten til GPT-Realtime-Whisper, men koster ingenting å kjøre.