Hy-MT2: A Family of Fast, Efficient and Powerful Multilingual Translation Models in the Wild
作者: Mao Zheng, Zheng Li, Tao Chen, Bo Lv, Mingrui Sun, Mingyang Song, Jinlong Song, Hong Huang, Decheng Wu, Hai Wang, Yifan Song, Yanfeng Chen, Guanwei Zhang, Guanghua Yu, Yi Su, Hong Liu, Jinxiang Ou, Keyao Wang, Weile Chen, Haozhao Kuang, Kai Wang, Nuo Chen, Zihao Zheng, Chenhao Wang, Bin Xing, Chengcheng Xu, Tinghao Yu, Binghong Wu, Long Xu, Jiacheng Shi, Yunhao Wang, Baifang Chen, Lei Zhang, Qi Yang, Zhao Wu, Jiacheng Li, Lan Jiang, Lanrui Wang, Kai Zhang, Shuaipeng Li, Zhongzhi Chen, Weixuan Sun, Jiaqi Zhu, An Wang, Wei Li, Jun Xia, Weidong Han, Wutian Yang, Litong Hui, Luoguo Jia, Jiajia Wu, Xinpeng Zhou, Tianxiang Fei
分类: cs.CL
发布日期: 2026-05-21
💡 一句话要点
Hy-MT2:一套快速、高效且强大的多语言翻译模型,适用于复杂现实场景
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多语言翻译 机器翻译 模型量化 设备端部署 Transformer模型
📋 核心要点
- 现有翻译模型在复杂现实场景中,速度、效率和多语言支持方面存在挑战。
- Hy-MT2通过不同规模的模型,支持33种语言翻译和多语言指令遵循,兼顾性能和效率。
- 实验结果表明,Hy-MT2在多种翻译任务中表现出色,小模型甚至超越主流商业API。
📝 摘要(中文)
Hy-MT2是一系列为复杂现实场景设计的快速多语言翻译模型。它包括三种模型尺寸:18亿参数、70亿参数和300亿参数(MoE)。所有模型均支持33种语言之间的翻译,并能有效遵循多种语言的翻译指令。对于设备端部署,通过AngelSlim 1.25-bit极端量化,18亿参数模型仅需440MB存储空间,并提升1.5倍的推理速度。多维度评估表明,Hy-MT2在通用、真实商业、领域特定和指令遵循翻译任务中均表现出色。70亿和300亿参数模型在快速推理模式下优于DeepSeek-V4-Pro和Kimi K2.6等开源模型,而轻量级的18亿参数模型也整体超越了微软和豆包等主流商业API。
🔬 方法详解
问题定义:论文旨在解决复杂现实场景下的多语言翻译问题,现有方法在速度、效率和模型大小之间难以取得平衡,尤其是在设备端部署时面临存储和计算资源的限制。此外,现有模型在遵循多语言指令方面的能力也有待提高。
核心思路:Hy-MT2的核心思路是构建一系列不同规模的多语言翻译模型,以适应不同的应用场景和资源约束。通过模型架构的优化和量化技术的应用,在保证翻译质量的同时,提高推理速度和降低模型大小。同时,模型设计注重多语言指令的理解和执行能力。
技术框架:Hy-MT2包含1.8B、7B和30B-A3B(MoE)三种模型尺寸。整体架构基于Transformer,针对不同规模的模型进行了优化。对于设备端部署,采用了AngelSlim 1.25-bit极端量化技术。训练数据涵盖33种语言,并包含大量的多语言指令数据。
关键创新:关键创新在于模型家族的设计理念,通过不同规模的模型来满足不同的需求。AngelSlim极端量化技术在保证翻译质量的前提下,显著降低了模型大小和提高了推理速度。此外,模型在多语言指令遵循方面的能力也是一个重要的创新点。
关键设计:论文中没有详细描述具体的参数设置、损失函数和网络结构等技术细节。但可以推测,模型训练采用了常见的交叉熵损失函数,并可能使用了数据增强和正则化等技术来提高模型的泛化能力。AngelSlim量化技术的具体实现细节未知。
🖼️ 关键图片
📊 实验亮点
Hy-MT2在多项翻译任务中取得了显著成果。7B和30B模型在快速推理模式下优于DeepSeek-V4-Pro和Kimi K2.6等开源模型。更令人瞩目的是,经过AngelSlim量化的1.8B模型仅需440MB存储空间,推理速度提升1.5倍,并且整体性能超越了微软和豆包等主流商业API。
🎯 应用场景
Hy-MT2可应用于各种需要多语言翻译的场景,例如跨境电商、国际交流、在线教育等。其轻量级模型尤其适合在移动设备和嵌入式系统中部署,为用户提供便捷的实时翻译服务。该研究的成果有助于推动多语言翻译技术的普及和应用,促进全球范围内的信息交流和文化融合。
📄 摘要(原文)
Hy-MT2 is a family of fast-thinking multilingual translation models designed for complex real-world scenarios. It includes three model sizes: 1.8B, 7B, and 30B-A3B (MoE), all of which support translation among 33 languages and effectively follow translation instructions in multiple languages. For on-device deployment, with AngelSlim 1.25-bit extreme quantization, the 1.8B model requires only 440 MB of storage and improves inference speed by 1.5x. Multi-dimensional evaluations show that Hy-MT2 delivers outstanding performance across general, real-world business, domain-specific, and instruction-following translation tasks. The 7B and 30B models outperform open-source models such as DeepSeek-V4-Pro and Kimi K2.6 in fast-thinking mode, while the lightweight 1.8B model also surpasses mainstream commercial APIs from providers such as Microsoft and Doubao overall.