Why do Large Language Models Fail in Low-resource Translation? Unraveling the Token Dynamics of Large Language Models for Machine Translation

📄 arXiv: 2605.07533v1 📥 PDF

作者: Shenbin Qian, Yves Scherrer

分类: cs.CL

发布日期: 2026-05-08

备注: Accepted to the 26th Annual Conference of the European Association for Machine Translation (EAMT2026)


💡 一句话要点

揭示大语言模型在低资源机器翻译中的失效机制:提出Token激活率(TAR)指标

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 机器翻译 低资源语言 Token动态 模型可解释性 语言表征

📋 核心要点

  1. 现有研究多关注翻译质量基准,缺乏对LLM在低资源翻译场景下失效机制的深入分析与量化解释。
  2. 论文提出了Token激活率(TAR)指标,通过量化模型对特定语言Token的利用效率,揭示了语言表征能力与翻译性能的内在联系。
  3. 实验表明低TAR与翻译质量下降高度相关,且推理型模型在处理低资源语言时会触发Token生成的补偿机制,为模型优化提供了新视角。

📝 摘要(中文)

大语言模型(LLMs)在机器翻译(MT)领域表现出色,但现有研究多集中于性能基准测试,缺乏对其失效原因的深入分析。本文系统评估了15种模型在22个不同资源水平语言对上的表现,发现非英语中心语言对的翻译质量(COMET分数)显著较低。为探究根本原因,作者提出了“Token激活率(TAR)”指标,用于衡量模型在生成过程中利用词表中特定语言Token的有效性。研究验证了TAR作为语言表征代理指标的有效性,并发现低TAR与翻译性能差之间存在强相关性。此外,推理型LLM在翻译低TAR语言时倾向于生成更多Token,表现出一种补偿机制。该研究强调了Token级动态特性对于理解LLM翻译性能的关键作用。

🔬 方法详解

问题定义:论文旨在解决大语言模型在低资源语言翻译中性能显著下降的问题。现有研究往往将LLM视为黑盒,缺乏从模型内部Token动态视角对“为何翻译失败”进行机理层面的解释。

核心思路:作者认为翻译性能的差异源于模型对特定语言Token的表征能力差异。通过引入Token激活率(TAR)这一指标,量化模型在生成过程中对目标语言词汇的激活程度,从而建立起模型内部表征与外部翻译质量之间的因果联系。

技术框架:研究通过评估15个不同架构的LLM(包括推理型模型)在22个语言对上的表现,构建了大规模翻译数据集。通过统计模型在推理阶段对特定语言Token的激活频率,计算TAR值,并将其与COMET翻译质量评估指标进行相关性分析。

关键创新:提出了TAR指标作为衡量LLM语言表征能力的代理指标。该指标能够有效捕捉模型在处理不同资源语言时的“词汇利用效率”,填补了从Token动态层面分析翻译失效的空白。

关键设计:TAR的计算基于模型在生成过程中对词表中属于特定语言的Token的采样频率。研究还对比了推理型模型在低TAR语言下的生成长度变化,发现模型存在一种试图通过增加输出长度来弥补表征不足的补偿性机制,尽管这种机制对质量的提升效果因模型而异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究通过对15个模型在22个语言对上的大规模实验,证实了非英语中心语言对的翻译质量普遍较低。核心发现是TAR指标与COMET分数之间存在显著的正相关性,验证了TAR作为语言表征能力代理指标的有效性。此外,实验揭示了推理型模型在低资源语言翻译中存在独特的Token生成补偿机制,为后续模型架构改进提供了实证依据。

🎯 应用场景

该研究成果可广泛应用于多语言大模型的优化与评估。在实际应用中,开发者可利用TAR指标快速诊断模型在特定语种上的表征瓶颈,从而指导针对性的增量预训练或指令微调。此外,该研究为理解LLM的跨语言泛化能力提供了理论支撑,对构建更具鲁棒性的全球化翻译系统具有重要指导意义。

📄 摘要(原文)

Large Language Models (LLMs) have recently demonstrated strong performance in machine translation (MT). However, most prior work focuses on improving or benchmarking translation quality, offering limited insight into when and why LLM-based translation fails. In this work, we systematically analyze failure modes of LLMs in MT by evaluating 15 models, including four reasoning LLMs, across 22 language pairs (LPs) with varying resource levels. We find that non-English-centric LPs consistently yield lower COMET scores than English-centric pairs. To investigate the underlying causes, we introduce Token Activation Rate (TAR), a metric that captures how effectively a model utilizes language-specific tokens in its vocabulary during generation. We validate TAR as a proxy for language representation using models with known language distributions in the training data, and show that lower TAR is strongly associated with poorer translation performance. Furthermore, reasoning LLMs tend to generate more tokens when translating into low-TAR languages, suggesting a compensatory mechanism, although its impact on translation quality varies across models. Overall, our findings emphasize the importance of token-level dynamics in understanding MT performance of LLMs.