Chain-of-Thought Reasoning Improves Context-Aware Translation with Large Language Models

作者: Shabnam Ataee, Andrei Popescu-Belis

分类: cs.CL

发布日期: 2025-10-20

💡 一句话要点

思维链推理提升大语言模型上下文感知翻译能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器翻译 大语言模型 思维链推理 上下文感知 提示工程

📋 核心要点

现有机器翻译模型在处理需要上下文信息的句子（如代词照应）时表现不足。
论文提出利用思维链（Chain-of-Thought）推理提示，引导LLM更好地理解上下文依赖关系。
实验表明，采用思维链推理的LLM在上下文翻译任务上显著提升，特别是GPT-4等模型。

📝 摘要（中文）

本文评估了大语言模型(LLMs)翻译包含句子间依赖关系的文本的能力。我们使用了English-French DiscEvalMT基准测试(Bawden et al., 2018)，该基准包含成对的句子，这些句子在代词照应或词汇衔接方面存在翻译挑战。我们评估了来自DeepSeek-R1、GPT、Llama、Mistral和Phi系列的12个LLM在两个任务上的表现：(1)区分正确的翻译和错误的但看似合理的翻译；(2)生成正确的翻译。我们比较了鼓励思维链推理的提示与不鼓励思维链推理的提示。最好的模型利用了推理，在第一个任务上达到了约90%的准确率，在第二个任务上COMET得分约为92%，其中GPT-4、GPT-4o和Phi表现突出。此外，我们观察到一种“智者更智”效应：通过推理获得的改进与没有推理的模型的分数呈正相关。

🔬 方法详解

问题定义：论文旨在解决机器翻译中上下文依赖关系处理不佳的问题，尤其是在代词指代和词汇衔接方面。现有方法难以充分利用句子间的语义关联，导致翻译质量下降。DiscEvalMT基准测试专门用于评估模型在这些方面的能力，揭示了现有模型的痛点。

核心思路：论文的核心思路是利用思维链（Chain-of-Thought, CoT）推理，引导大语言模型逐步分析上下文信息，从而更准确地理解句子间的依赖关系。通过提示模型解释其翻译决策过程，可以提高翻译的准确性和一致性。

技术框架：论文采用了一种基于提示（Prompting）的框架。首先，构建包含上下文信息的输入文本（来自DiscEvalMT基准）。然后，设计两种类型的提示：一种是标准提示，直接要求模型进行翻译；另一种是CoT提示，引导模型逐步推理并解释其翻译决策。最后，比较两种提示下模型的翻译质量。

关键创新：关键创新在于将思维链推理引入到上下文感知的机器翻译任务中。与传统的端到端翻译模型相比，CoT提示能够促使模型显式地考虑上下文信息，从而提高翻译的准确性和一致性。此外，论文还观察到“智者更智”效应，即CoT推理对性能较好的模型提升更明显。

关键设计：论文的关键设计包括：(1) 精心设计的CoT提示，引导模型进行逐步推理；(2) 使用DiscEvalMT基准测试，该基准专门用于评估上下文翻译能力；(3) 采用COMET评分指标，该指标能够更好地评估翻译的语义质量。具体提示工程细节和超参数设置在论文中可能未详细说明，属于实现细节。

🖼️ 关键图片

📊 实验亮点

实验结果表明，采用思维链推理的LLM在DiscEvalMT基准测试中取得了显著提升。在区分正确翻译的任务中，最佳模型达到了约90%的准确率。在生成翻译的任务中，COMET得分约为92%，其中GPT-4、GPT-4o和Phi等模型表现突出。此外，研究还发现CoT推理对性能较好的模型提升更明显，验证了“智者更智”效应。

🎯 应用场景

该研究成果可应用于各种需要高质量机器翻译的场景，例如跨语言交流、文档翻译、多语言信息检索等。通过提升机器翻译的上下文感知能力，可以减少翻译错误和歧义，提高沟通效率和准确性。未来，该方法有望应用于更复杂的跨语言理解和生成任务。

📄 摘要（原文）

This paper assesses the capacity of large language models (LLMs) to translate texts that include inter-sentential dependencies. We use the English-French DiscEvalMT benchmark (Bawden et al., 2018) with pairs of sentences containing translation challenges either for pronominal anaphora or for lexical cohesion. We evaluate 12 LLMs from the DeepSeek-R1, GPT, Llama, Mistral and Phi families on two tasks: (1) distinguishing a correct translation from a wrong but plausible one; (2) generating a correct translation. We compare prompts that encourage chain-of-thought reasoning with those that do not. The best models take advantage of reasoning and reach about 90% accuracy on the first task, and COMET scores of about 92% on the second task, with GPT-4, GPT-4o and Phi standing out. Moreover, we observe a "wise get wiser" effect: the improvements through reasoning are positively correlated with the scores of the models without reasoning.

Chain-of-Thought Reasoning Improves Context-Aware Translation with Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理