Qwen3.5-LiveTranslate-Flash – sanntidsoversettelse på 2,8 sekunder

Innhold Vis

Alibaba har sluppet Qwen3.5-LiveTranslate-Flash, en sanntidsoversettelsesmodell som håndterer 60 inngangsspråk og leverer taleoutput på 2,8 sekunder. Den prosesserer lyd og video parallelt – det vil si at den leser leppebevegelser, tekst på skjermen og visuelle objekter mens den oversetter det som sies.

Forrige generasjon, Qwen3-LiveTranslate-Flash, klarte 18 inngangsspråk og hadde rundt 3 sekunders forsinkelse. Den nye versjonen er altså tre ganger bredere språkmessig og litt raskere. Forbedringen er ikke dramatisk i antall millisekunder, men det er hva som ligger under panseret som er interessant.

Modellen er tilgjengelig via Alibaba Cloud Model Studio som API-tilgang med WebSocket-tilkobling – det finnes ingen offentlig tilgjengelig vekt for lokal kjøring.

Hva gjør Qwen3.5-LiveTranslate-Flash annerledes?

De fleste oversettelses-AI-er jobber sekvensielt: de venter på at en setning er ferdig, oversetter den, og leverer resultatet. Qwen3.5-LiveTranslate-Flash bruker en teknikk kalt «reading units» – modellen forplikter seg til oversettelse av segmenter før hele setningen er ferdig uttalt. Det gir en kontinuerlig strøm i stedet for synlige hopp mellom setninger.

I tillegg til lydsporet analyserer modellen visuell informasjon parallelt. Det betyr at leppebevegelser, tekst på skjermen og visuelle objekter i kameraets synsvinkel er med i beslutningsgrunnlaget. Særlig i støyfulle omgivelser eller ved utydelig tale gir leppeavlesning en ekstra pålitelighetsmargin.

Abstrakt visualisering av 60 språk som strømmer inn i en AI-oversettelsenode — Modellen prosesserer lyd fra 60 inngangsspråk og leverer taleoutput på 29 språk

Stemmekloning med én referansesetning

En av de mer påfallende funksjonene er sanntids stemmekloning. Modellen trenger bare én uttalt setning for å replikere talernes stemmekarakteristikk i den oversatte outputen. I praksis betyr det at den som snakker høres ut som seg selv på målspråket, ikke som en generisk AI-stemme.

Teknisk sett er dette krevende å få til i sanntid. De fleste stemmekloning-systemer bruker lengre referanseopptak og trenger tid til å prosessere. At dette nå er innebygd i tolkepipelinen i stedet for å være et separat etterbehandlingssteg, er verdt å merke seg.

For formelle møter, intervjuer eller undervisningssituasjoner der tonefall og nyanser i stemmen betyr noe, er dette en vesentlig forbedring over standardisert TTS-output. Stemmekloning er naturligvis et tveegget sverd – men i tolkesammenheng der begge parter er til stede, er det konteksten som legitimerer bruken.

Domenespesifikk terminologi via nøkkelordkonfigurasjon

Qwen3.5-LiveTranslate-Flash støtter dynamisk nøkkelordinjeksjon ved kjøretid. Det vil si at du kan konfigurere en ordliste med fagtermer – medisinsk, juridisk, teknisk, eller merkevare-spesifikt – og modellen vil prioritere disse oversettelsene fremfor generiske alternativer.

Dette er en praktisk funksjon for profesjonell bruk. Generelle oversettelsesmodeller bommer regelmessig på fagspesifikke uttrykk fordi de ikke har kontekst for hva slags domene samtalen befinner seg i. En lege som bruker modellen i et konsultasjonsscenario kan konfigurere medisinsk terminologi, en advokat kan sette opp juridiske termer – uten å trene opp en ny modell.

Konferanserom med holografisk grensesnitt for nøkkelordkonfigurasjon og stemmekloning — Dynamisk nøkkelordinjeksjon lar fagfolk konfigurere terminologi for medisinsk, juridisk og teknisk bruk

Benchmarks og ytelse

Modellen er evaluert på FLEURS (diverse språkpar under reelle akustiske forhold) og CoVoST2 (21 oversettelseretninger), og gjør det ifølge Alibaba bedre enn de viktigste kommersielle alternativene.

Benchmarks er alltid et utgangspunkt, ikke en fasit. Det som teller i praksis er om modellen håndterer aksenter, bakgrunnsstøy og overlappende tale – faktorer som er vanskelige å kvantifisere i laboratoriescenarioer. Med 60 inngangsspråk vil det uansett være stor variasjon i kvalitet mellom veldokumenterte og underrepresenterte språk.

Sammenlign gjerne dette med det Googles Gemini 3.1 Flash Live gjør i sanntids tale og video – begge modellene trekker i samme retning, mot multimodale opplevelser med lav forsinkelse.

Tekniske krav for å bruke API-et

Tilgang krever en Alibaba Cloud-konto med Model Studio-tilgang og en DashScope API-nøkkel. Lydinput forventes som 16kHz, 16-bit PCM mono – standard for de fleste mikrofon-oppsett. Python-pakkene websocket-client og pyaudio trengs for tilkobling.

Tilkoblingen er WebSocket-basert, noe som gir en persistent tilkobling i stedet for tradisjonelle REST-kall. Det er teknisk riktig valg for sanntidsstrømming der man vil unngå overhead fra gjentatte HTTP-tilkoblinger.

Prisingen er ikke oppgitt i den tilgjengelige dokumentasjonen – det er typisk for Alibaba Cloud at man må inn i selve konsollet for å se faktiske priser per token eller per minutt. Sammenlign gjerne med hva Qwen3.5 Omni koster i API-bruk for å få en pekepinn på Alibabas prisstrategi generelt.

Er dette relevant utenfor Kina?

Det er et legitimt spørsmål. Alibaba Cloud er ikke like naturlig for norske utviklere som AWS, Azure eller Google Cloud. Datalagring og compliance er relevante hensyn for sensitiv kommunikasjon.

Teknologisk sett er Qwen-teamet derimot blant de mest produktive i bransjen om dagen. Qwen3.5 Omni viste at de kan konkurrere i det øverste sjiktet på multimodal forståelse. LiveTranslate er et mer spesifikt produkt, men teknikken – særlig kombinasjonen av leppeavlesning, stemmekloning og domenekonfigurasjon i én pipeline – er interessant uansett hvem som bygger det.

Markedet for sanntidsoversettelse er stort. Tolketjenester er kostbare, og AI-assistert tolking på konferanser, i helsevesenet og i juridiske situasjoner er et åpenbart bruksområde. Om Alibaba klarer å kapre internasjonal markedsandel mot Google, Microsoft og Deepgram, gjenstår å se – men verktøyene de leverer, er ikke lenger avstandsbasert.

Qwen3.5-LiveTranslate-Flash – sanntidsoversettelse på 2,8 sekunder

Neste

OpenAI motbeviser 60 år gammel matematisk konjektur med reasoning-modell

Skribent

Jan Sverre Bauge

tagger

Del artikkel

Innhold Vis

Hva gjør Qwen3.5-LiveTranslate-Flash annerledes?

Stemmekloning med én referansesetning

Domenespesifikk terminologi via nøkkelordkonfigurasjon

Benchmarks og ytelse

Tekniske krav for å bruke API-et

Er dette relevant utenfor Kina?

Legg igjen en kommentar Avbryt svar

Suno AI – 150 Låter Testet: Hva Funker og Hva Er Bortkastet Tid

Claude AI – pris, funksjoner og norsk guide (2026)

Suno AI Copyright 2026 – Opphavsrett og Rettigheter for AI-Musikk

Ollama Guide – Kjør AI Gratis og Lokalt på Din Egen PC (2026)

Glutenfri sitronkake – min beste oppskrift

Amazon droppet Sam Altman-filmen etter 50 milliarder til OpenAI – nå vil ingen ha den

Suno AI – 150 Låter Testet: Hva Funker og Hva Er Bortkastet Tid

Claude AI – pris, funksjoner og norsk guide (2026)

Suno AI Copyright 2026 – Opphavsrett og Rettigheter for AI-Musikk

Glutenfri sitronkake – min beste oppskrift

Kaffegrut i Hagen – Slik Bruker Du Det som Gjødsel og Skadedyrbekjemper

Sterk Chili Kaffe

Stekt Kylling i Airfryer

Qwen3.5-LiveTranslate-Flash – sanntidsoversettelse på 2,8 sekunder

Neste

Skribent

tagger

Del artikkel

Innhold Vis

Hva gjør Qwen3.5-LiveTranslate-Flash annerledes?

Stemmekloning med én referansesetning

Domenespesifikk terminologi via nøkkelordkonfigurasjon

Benchmarks og ytelse

Tekniske krav for å bruke API-et

Er dette relevant utenfor Kina?

Legg igjen en kommentar Avbryt svar

Meld deg på nyhetsbrevet

Du liker kanskje denne også