Loong: A Human-Like Long Document Translation Agent with Observe-and-Act Adaptive Context Selection

📄 arXiv: 2605.30274v1 📥 PDF

作者: Yutong Wang, Xuebo Liu, Derek F. Wong, Zhilin Li, Rongqing Jiang, Min Zhang, Shimin Tao, Daimeng Wei, Min Zhang

分类: cs.CL, cs.AI

发布日期: 2026-05-28

🔗 代码/项目: GITHUB


💡 一句话要点

提出Loong以解决长文档翻译中的上下文选择问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长文档翻译 上下文选择 深度推理 强化学习 机器翻译

📋 核心要点

  1. 现有长文档翻译方法受限于上下文窗口,导致全球连贯性不足和冗余信息干扰,影响翻译质量。
  2. Loong通过3E记忆模块存储历史上下文,并采用深度推理自适应选择最佳上下文进行翻译,提升翻译效果。
  3. 实验证明Loong在多种语言对之间的翻译质量显著提升,平均增益达到13.0分,并展现出良好的泛化能力和稳定性。

📝 摘要(中文)

长文档翻译仍然是大型语言模型面临的最具挑战性的任务之一,受限于有限的上下文窗口,导致全球连贯性受阻,同时冗余的上下文信息又降低了翻译质量。为此,我们提出了一种类人长文档翻译代理Loong,利用3E记忆模块(Essence-Exemplar-Entity)存储摘要、句子对和实体记录作为历史上下文。Loong通过深度推理自适应识别最佳上下文进行翻译指导,并通过强化学习优化其上下文策略,利用从自身采样的观察-行动推理轨迹中获得的偏好数据。实证评估表明,Loong在英中、德文和法文翻译方向上实现了显著的翻译质量提升,三项评估指标的平均增益高达13.0分。此外,Loong在不同领域间表现出强大的泛化能力和对上下文噪声的鲁棒性,同时在超长文档翻译中保持了显著的稳定性。

🔬 方法详解

问题定义:论文要解决长文档翻译中的上下文选择问题,现有方法因上下文窗口限制和冗余信息干扰,导致翻译质量下降。

核心思路:Loong通过3E记忆模块存储历史上下文,并利用深度推理自适应选择最佳上下文进行翻译指导,从而提高翻译质量。

技术框架:Loong的整体架构包括3E记忆模块、上下文选择模块和强化学习优化模块。3E记忆模块存储摘要、句子对和实体记录,上下文选择模块通过深度推理识别最佳上下文,强化学习模块优化上下文选择策略。

关键创新:Loong的核心创新在于其自适应上下文选择机制,通过深度推理而非被动关注所有历史信息,显著提高了翻译的准确性和连贯性。

关键设计:在设计中,Loong使用了强化学习来优化上下文策略,损失函数设计考虑了翻译质量和上下文选择的平衡,网络结构则结合了记忆模块和推理模块,以实现高效的上下文处理。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Loong在英中、德文和法文翻译方向的实验结果显示,翻译质量平均提升了13.0分,显著优于现有基线方法。此外,Loong在不同领域的泛化能力和对上下文噪声的鲁棒性也得到了验证,展现出其在超长文档翻译中的稳定性。

🎯 应用场景

该研究的潜在应用领域包括机器翻译、跨语言信息检索和多语言内容生成等。Loong的设计理念和技术框架能够有效提升长文档翻译的质量,具有广泛的实际价值和未来影响,尤其在需要高质量翻译的专业领域如法律、医学和科技文献中。

📄 摘要(原文)

Document-level translation remains one of the most challenging tasks for large language models, which are constrained by limited context windows that impede global cohesion, while simultaneously suffering from redundant contextual information that degrades translation quality. To address this, we propose a human-like long document translation agent called Loong, which leverages a 3E memory module (Essence-Exemplar-Entity) to store summaries, sentence pairs, and entity records as historical context. Instead of passively attending to all history, Loong performs deep reasoning to adaptively identify the optimal context for translation guidance. Loong optimizes its context policy through reinforcement learning, utilizing preference data derived from its own sampled observe-and-act reasoning trajectories. Empirical evaluations demonstrate that Loong achieves substantial translation quality improvements in English $\Leftrightarrow$ Chinese, German, and French directions, with average gains of up to 13.0 points across the three evaluation metrics. Furthermore, Loong exhibits strong generalization across domains and robustness against contextual noise, while maintaining remarkable stability in ultra-long document translation. Our code is released at https://github.com/YutongWang1216/LoongDocMT.