IFMTBench: A Comprehensive Benchmark for Multilingual Translation Instruction Following
作者: Mingrui Sun, Mao Zheng, Zheng Li, Mingyang Song
分类: cs.CL
发布日期: 2026-05-27
备注: 11 pages, 6 figures, conference
🔗 代码/项目: GITHUB
💡 一句话要点
提出IFMTBench以解决多语言翻译指令遵循问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多语言翻译 指令遵循 约束评估 机器翻译 自然语言处理 模型评估 跨语言特性
📋 核心要点
- 现有翻译模型在满足用户多重约束方面存在不足,传统评估指标未能有效反映约束遵循情况。
- 论文提出IFMTBench基准,涵盖多语言翻译指令遵循,设计了多种约束和评估机制以提升模型性能。
- 实验结果显示,指令遵循与模型规模呈现更强的相关性,且词汇表和结构化约束显著影响模型表现。
📝 摘要(中文)
现代翻译工作流程不仅要求语义等价,用户还需要模型遵循JSON或HTML架构、尊重策划的词汇表、根据提供的上下文进行消歧义,并匹配规定的语域。传统的评估指标如BLEU和xCOMET虽然能捕捉语义忠实度,但对约束遵循的信号较少,而一般的指令遵循基准忽视了翻译的跨语言特性。我们提出了IFMTBench,这是一个涵盖七种语言的多语言翻译指令遵循基准,包含4506个单约束和2838个多约束项目,跨越六个约束维度和五种组合模式,所有指令均以七种语言发布。约束分为由确定性检查器验证的门控子集和由基于评分标准的LLM评审的连续子集,结合乘法规则以抵抗奖励操控。对15个模型的评估揭示了先前协议忽视的系统性差距:指令遵循的规模与翻译质量的关系更为显著,词汇表和结构化格式约束主导了难度梯度,而一般指令遵循排名与翻译行为的相关性较弱。
🔬 方法详解
问题定义:本论文旨在解决现有翻译模型在多语言指令遵循中的不足,尤其是在满足用户多重约束方面的挑战。现有方法往往无法有效评估模型对约束的遵循情况,导致翻译质量与用户需求之间的差距。
核心思路:论文提出IFMTBench基准,通过设计多种约束和评估机制,旨在全面评估翻译模型在指令遵循方面的能力,特别是跨语言的特性。该设计考虑了用户在实际应用中的多重需求,确保模型不仅能翻译语义,还能遵循特定格式和约束。
技术框架:IFMTBench的整体架构包括约束的设计、验证和评估三个主要模块。约束分为门控子集和连续子集,前者通过确定性检查器验证,后者由基于评分标准的LLM评审。评估过程结合乘法规则,以确保对模型的全面考量。
关键创新:本研究的主要创新在于引入了多维度的约束评估机制,特别是通过结合门控和连续约束的方式,克服了传统评估方法的局限性。这种设计有效地抵抗了奖励操控,提升了评估的可靠性。
关键设计:在约束设计中,考虑了六个约束维度和五种组合模式,确保覆盖用户的多样化需求。评估过程中,采用了基于评分标准的LLM评审,以提高评估的准确性和全面性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,指令遵循能力与模型规模之间存在显著的正相关关系,且词汇表和结构化格式约束显著影响模型的表现。与传统评估方法相比,IFMTBench能够更准确地反映模型在多语言翻译中的实际能力,提供了更为全面的评估视角。
🎯 应用场景
IFMTBench的研究成果可广泛应用于多语言翻译系统的开发与优化,尤其是在需要遵循特定格式和约束的行业,如法律、技术文档和市场营销等领域。通过提升模型的指令遵循能力,能够更好地满足用户的实际需求,推动翻译技术的进步。
📄 摘要(原文)
Modern translation workflows demand more than semantic equivalence. Users routinely require models to preserve JSON or HTML schemas, honor curated glossaries, disambiguate with provided context, and match prescribed registers, often several at once. Conventional metrics such as BLEU and xCOMET capture semantic fidelity but provide little signal on constraint adherence, while general instruction following benchmarks ignore the cross-lingual nature of translation. We introduce \bench, a benchmark for multilingual translation instruction following covering seven languages, with 4,506 single-constraint and 2,838 multi-constraint items spanning six constraint dimensions and five compositional patterns with instructions issued in all seven languages. Constraints are split into a gating subset verified by deterministic checkers and a continuous subset scored by a rubric-based LLM judge, combined under a multiplicative rule that resists reward hacking. Evaluating 15 models reveals systematic gaps that prior protocols miss: Instruction following scales with size more sharply than translation quality, glossary and structured-format constraints dominate the difficulty gradient, and general instruction following rankings correlate only weakly with translation behavior. Our benchmark are available at https://github.com/Tencent-Hunyuan/Hy-MT2/tree/main/IFMTBench.