Innhold Vis
Alibaba har sluppet Qwen3.5-LiveTranslate-Flash, en sanntidsoversettelsesmodell som håndterer 60 inngangsspråk og leverer taleoutput på 2,8 sekunder. Den prosesserer lyd og video parallelt – det vil si at den leser leppebevegelser, tekst på skjermen og visuelle objekter mens den oversetter det som sies.
Forrige generasjon, Qwen3-LiveTranslate-Flash, klarte 18 inngangsspråk og hadde rundt 3 sekunders forsinkelse. Den nye versjonen er altså tre ganger bredere språkmessig og litt raskere. Forbedringen er ikke dramatisk i antall millisekunder, men det er hva som ligger under panseret som er interessant.
Modellen er tilgjengelig via Alibaba Cloud Model Studio som API-tilgang med WebSocket-tilkobling – det finnes ingen offentlig tilgjengelig vekt for lokal kjøring.
Hva gjør Qwen3.5-LiveTranslate-Flash annerledes?
De fleste oversettelses-AI-er jobber sekvensielt: de venter på at en setning er ferdig, oversetter den, og leverer resultatet. Qwen3.5-LiveTranslate-Flash bruker en teknikk kalt «reading units» – modellen forplikter seg til oversettelse av segmenter før hele setningen er ferdig uttalt. Det gir en kontinuerlig strøm i stedet for synlige hopp mellom setninger.
I tillegg til lydsporet analyserer modellen visuell informasjon parallelt. Det betyr at leppebevegelser, tekst på skjermen og visuelle objekter i kameraets synsvinkel er med i beslutningsgrunnlaget. Særlig i støyfulle omgivelser eller ved utydelig tale gir leppeavlesning en ekstra pålitelighetsmargin.

Stemmekloning med én referansesetning
En av de mer påfallende funksjonene er sanntids stemmekloning. Modellen trenger bare én uttalt setning for å replikere talernes stemmekarakteristikk i den oversatte outputen. I praksis betyr det at den som snakker høres ut som seg selv på målspråket, ikke som en generisk AI-stemme.
Teknisk sett er dette krevende å få til i sanntid. De fleste stemmekloning-systemer bruker lengre referanseopptak og trenger tid til å prosessere. At dette nå er innebygd i tolkepipelinen i stedet for å være et separat etterbehandlingssteg, er verdt å merke seg.
For formelle møter, intervjuer eller undervisningssituasjoner der tonefall og nyanser i stemmen betyr noe, er dette en vesentlig forbedring over standardisert TTS-output. Stemmekloning er naturligvis et tveegget sverd – men i tolkesammenheng der begge parter er til stede, er det konteksten som legitimerer bruken.
Domenespesifikk terminologi via nøkkelordkonfigurasjon
Qwen3.5-LiveTranslate-Flash støtter dynamisk nøkkelordinjeksjon ved kjøretid. Det vil si at du kan konfigurere en ordliste med fagtermer – medisinsk, juridisk, teknisk, eller merkevare-spesifikt – og modellen vil prioritere disse oversettelsene fremfor generiske alternativer.
Dette er en praktisk funksjon for profesjonell bruk. Generelle oversettelsesmodeller bommer regelmessig på fagspesifikke uttrykk fordi de ikke har kontekst for hva slags domene samtalen befinner seg i. En lege som bruker modellen i et konsultasjonsscenario kan konfigurere medisinsk terminologi, en advokat kan sette opp juridiske termer – uten å trene opp en ny modell.

Benchmarks og ytelse
Modellen er evaluert på FLEURS (diverse språkpar under reelle akustiske forhold) og CoVoST2 (21 oversettelseretninger), og gjør det ifølge Alibaba bedre enn de viktigste kommersielle alternativene.
Benchmarks er alltid et utgangspunkt, ikke en fasit. Det som teller i praksis er om modellen håndterer aksenter, bakgrunnsstøy og overlappende tale – faktorer som er vanskelige å kvantifisere i laboratoriescenarioer. Med 60 inngangsspråk vil det uansett være stor variasjon i kvalitet mellom veldokumenterte og underrepresenterte språk.
Sammenlign gjerne dette med det Googles Gemini 3.1 Flash Live gjør i sanntids tale og video – begge modellene trekker i samme retning, mot multimodale opplevelser med lav forsinkelse.
Tekniske krav for å bruke API-et
Tilgang krever en Alibaba Cloud-konto med Model Studio-tilgang og en DashScope API-nøkkel. Lydinput forventes som 16kHz, 16-bit PCM mono – standard for de fleste mikrofon-oppsett. Python-pakkene websocket-client og pyaudio trengs for tilkobling.
Tilkoblingen er WebSocket-basert, noe som gir en persistent tilkobling i stedet for tradisjonelle REST-kall. Det er teknisk riktig valg for sanntidsstrømming der man vil unngå overhead fra gjentatte HTTP-tilkoblinger.
Prisingen er ikke oppgitt i den tilgjengelige dokumentasjonen – det er typisk for Alibaba Cloud at man må inn i selve konsollet for å se faktiske priser per token eller per minutt. Sammenlign gjerne med hva Qwen3.5 Omni koster i API-bruk for å få en pekepinn på Alibabas prisstrategi generelt.
Er dette relevant utenfor Kina?
Det er et legitimt spørsmål. Alibaba Cloud er ikke like naturlig for norske utviklere som AWS, Azure eller Google Cloud. Datalagring og compliance er relevante hensyn for sensitiv kommunikasjon.
Teknologisk sett er Qwen-teamet derimot blant de mest produktive i bransjen om dagen. Qwen3.5 Omni viste at de kan konkurrere i det øverste sjiktet på multimodal forståelse. LiveTranslate er et mer spesifikt produkt, men teknikken – særlig kombinasjonen av leppeavlesning, stemmekloning og domenekonfigurasjon i én pipeline – er interessant uansett hvem som bygger det.
Markedet for sanntidsoversettelse er stort. Tolketjenester er kostbare, og AI-assistert tolking på konferanser, i helsevesenet og i juridiske situasjoner er et åpenbart bruksområde. Om Alibaba klarer å kapre internasjonal markedsandel mot Google, Microsoft og Deepgram, gjenstår å se – men verktøyene de leverer, er ikke lenger avstandsbasert.