Innhold Vis
Tencent har sluppet Hy-MT2, en åpen oversettelsesmodell-familie i tre størrelser – 1.8B, 7B og 30B-A3B – som støtter 36 språk og er laget spesifikt for maskinoversettelse. Det som skiller den fra det meste er fokuset: dette er ikke en generell språkmodell som også kan oversette, men en modell bygget fra grunnen av for oversettingsoppgaver i den virkelige verden.
Modellene er tilgjengelige på Hugging Face under åpen lisens, med GGUF-støtte for lokal kjøring. 30B-varianten bruker MoE-arkitektur (Mixture-of-Experts) med bare 3 milliarder aktive parametere – noe som gjør den langt raskere enn størrelsen tilsier.
Er dette noe å bry seg om, eller bare enda en kinesisk modell i mengden? Jeg gravde litt i tallene.
Hva er Hy-MT2 og hva gjør den annerledes?
Hy-MT2 er Tencentsfamilie av «fast-thinking» oversettelsesmodeller, bygget under Hunyuan-paraplyen. Kjerneforskjellen fra de fleste andre modeller er at dette ikke er en allroundmodell – den er optimalisert for ett formål: å oversette tekst godt, på mange språk, i komplekse scenarier.
Modellserien støtter 36 språk, inkludert de store europeiske språkene, arabisk, japansk, koreansk, hindi og bengali – men også mer sjeldne valg som tibetansk, ujgurisk, kasakhisk og mongolsk. For de store rekkeviddemodellene teller Tencent 33 språk i offisiell dokumentasjon, men HuggingFace-kortene viser 36 med de ekstra variantene av kinesisk (tradisjonell, kantonesisk).
Et spesielt trekk er at modellene følger instruksjoner på flere språk. Du kan be den på norsk om å oversette fra japansk til arabisk – og den forstår oppgaven. Det høres banalt ut, men de fleste oversettelsesmodeller forventer instruksjoner på engelsk eller kildespråket.

Hvilke modellstørrelser finnes og hvilken passer deg?
Hy-MT2 kommer i tre varianter med veldig ulike bruksområder:
| Modell | Arkitektur | Aktive param | Best for |
|---|---|---|---|
| Hy-MT2-1.8B | Dense | 1,8 milliarder | On-device, mobil, edge |
| Hy-MT2-7B | Dense | 7 milliarder | Stasjonær, server, balansert |
| Hy-MT2-30B-A3B | MoE (30B total / 3B aktiv) | ~3 milliarder | Høy kvalitet, GPU-server |
30B-A3B-notasjonen betyr at modellen har 30 milliarder totale parametere men aktiverer bare 3 milliarder per token under inferens – takket være MoE-arkitekturen. I praksis betyr det at du får mye av ytelsen til en stor modell uten å betale den fulle minne- og beregningsprisen. Det er akkurat den samme ideen som DeepSeek brukte til å sjokkere verden for noen måneder siden, og som jeg skrev om i den komplette guiden til open source AI i 2026.
7B-modellen er trolig søtepunktet for de fleste som vil kjøre dette lokalt på en vanlig PC med skjermkort. Den lastes med BF16-presisjon via Transformers-biblioteket, og GGUF-versjonen (Hy-MT2-7B-GGUF) fungerer direkte med llama.cpp og Ollama.
Hva er AngelSlim og hvorfor er 440 MB interessant?
AngelSlim er Tencentsfremgangsmåte for ekstremskvantisering. For 1.8B-modellen har de presset vektene ned til 1,25-bit – noe som er lavere enn selv aggressive 2-bit-kvantisetinger fra verktøy som GGUF Q2. Resultatet er en modell på 440 MB total størrelse og 1,5 ganger raskere inferens sammenlignet med standardversjonen.
For å sette 440 MB i perspektiv: Googles Live Translation-funksjon i Translate-appen bruker on-device modeller i samme størrelsesklasse – men de støtter langt færre språk og er ikke tilgjengelige for egne applikasjoner. En 440 MB oversettelsesmodell som støtter 36 språk og kan bakes inn i egne produkter er noe annet.
AngelSlim-verktøyet er for øvrig tilgjengelig på GitHub og kan brukes på egne modeller – ikke bare Hy-MT2.

Hvordan kjører du Hy-MT2 lokalt?
Modellene krever Transformers versjon 5.6.0 eller nyere. Grunnoppsettet er standard Hugging Face-flyt:
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
model_path = "tencent/Hy-MT2-7B"
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
model_path,
dtype=torch.bfloat16,
device_map="auto",
trust_remote_code=True,
)
Merk trust_remote_code=True – det er påkrevd fordi Tencent bruker egendefinert tokenizer-logikk. For de som er skeptiske til det (og det er en fornuftig skepsis), er GGUF-versjonene et alternativ der du unngår den parameteren helt og kjører direkte i llama.cpp eller Ollama. llama.cpp fikk nylig MTP-støtte som gir opptil 2,4 ganger raskere lokal inferens – verdt å kombinere med disse GGUF-modellene.
Deployment-alternativene inkluderer vLLM med tensor-parallellisme for server-oppsett og SGLang for produksjonsscenarier. For 30B-A3B-varianten anbefales FP8-versjonen (Hy-MT2-30B-A3B-FP8) på GPU-er som støtter det.
Hva slags oversettelsesoppgaver håndterer den?
Hy-MT2 er spesialbygd for det Tencent kaller «komplekse scenarioer i den virkelige verden». I praksis betyr det at den ikke bare oversetter løsrevet setning for setning, men håndterer:
- Domenespesifikk terminologi (juridisk, medisinsk, teknisk)
- Tilpasset stil og tone per kontekst
- Strukturerte data – JSON, XML og lignende formater oversettes uten å ødelegge strukturen
- Instruksjonsfølging på tvers av språk
Det siste punktet er det mest interessante for utviklere. Du kan lage prompts på norsk der du spesifiserer stil, formalnivå og terminologipreferanser – og modellen respekterer det. I motsetning til generelle modeller som er trent på alt, er Hy-MT2 trent med oversettelse som primæroppgave, noe som ifølge den tekniske rapporten (arXiv:2512.24092) gir bedre resultater på oversettelsesoppgaver enn generelle modeller av tilsvarende størrelse.
Benchmarkene viser at 7B-modellen slår DeepSeek-V3-Pro og Kimi K2.6 på oversettelsesoppgaver i «fast-thinking»-modus – altså uten utvidet resonering. Det er gode tall, men jeg er som vanlig litt skeptisk til benchmarks som produsenten selv har laget. Det sier deg ikke alltid så mye om virkelig bruk. Interessant nok slår den også kommersielle APIer fra Microsoft og Doubao på 1.8B-nivå.
Sammenlignet med IBM Granite og andre spesialiserte modeller
Det er en interessant trend her. Hy-MT2 er ikke alene om å sikte mot spesialiserte bruksområder fremfor å konkurrere på alt. IBMs Granite 4.1 er et annet eksempel – 8B-modellen deres slår tidligere 32B-modeller på koding og businessoppgaver ved å fokusere hardt på én nisje.
Strategien gir mening. I stedet for å kjempe med OpenAI og Anthropic på generell intelligens, er det smartere å eie et spesifikt domene der brukerens behov er klart definert. Maskinoversettelse er et slikt domene – og markedet for det er enormt. Globale bedrifter, dokumentprosessering, lokalisering av applikasjoner – alt dette er oversettelsesoppgaver som ikke trenger en 70B general-purpose-modell.
Modellene er tilgjengelige på GitHub (Tencent-Hunyuan/Hy-MT2) og Hugging Face. Lisensen er ikke eksplisitt nevnt som Apache 2.0 overalt, så sjekk vilkårene for kommersiell bruk før du bygger tjenester på toppen.
Skeptisk til kinesiske modeller? Det forstår jeg. Tenk på det som et verktøy med en spesifikk jobb – ikke som en assistent du deler sensitiv informasjon med. For en oversettelsespipeline som prosesserer offentlige dokumenter lokalt er risikoprofilen en helt annen enn å gi en kinesisk skymodell tilgang til bedriftsdataene dine.