Mitigating Hallucinated Translations in Large Language Models with Hallucination-focused Preference Optimization

作者: Zilu Tang, Rajen Chatterjee, Sarthak Garg

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-01-28

备注: NAACL 2025 Main Conference Long paper (9 pages)

期刊: NAACL 2025

💡 一句话要点

提出基于幻觉偏好优化的LLM翻译方法，显著降低翻译幻觉

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器翻译 大型语言模型 幻觉缓解 偏好优化 微调 数据增强 零样本学习

📋 核心要点

现有基于LLM的机器翻译系统易产生幻觉，降低用户信任，且传统事后缓解方法增加部署复杂性和延迟。
论文提出一种在模型训练阶段内在学习减少幻觉的方法，通过构建幻觉偏好数据集进行微调。
实验表明，该方法在多个语言对上显著降低幻觉率，平均降低96%，且在零样本设置下也有显著效果。

📝 摘要（中文）

机器翻译（MT）正在经历范式转变，基于微调的大型语言模型（LLM）的系统在翻译任务中变得越来越有竞争力，可以与专门为翻译任务训练的传统编码器-解码器模型相媲美。然而，基于LLM的系统产生幻觉的风险更高，这会严重损害用户的信任和安全性。以往关于减少幻觉的研究大多集中在传统的MT模型上，其解决方案包括事后缓解——检测产生幻觉的翻译并重新翻译。虽然有效，但这种方法在生产中部署额外的工具会带来额外的复杂性，并增加延迟。为了解决这些局限性，我们提出了一种在模型训练阶段内在学习以减少幻觉的方法。具体来说，我们引入了一个数据创建框架来生成以幻觉为重点的偏好数据集。在这些偏好数据集上微调LLM，可以在五个语言对中平均降低96%的幻觉率，同时保持整体翻译质量。在零样本设置中，我们的方法在三种未见过的目标语言中平均降低了89%的幻觉。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）在机器翻译任务中产生的幻觉问题。现有方法，如事后检测和重新翻译，增加了部署复杂性和延迟，并且没有从根本上解决LLM生成幻觉的内在倾向。

核心思路：核心思路是在模型训练阶段，通过引入幻觉偏好优化，使LLM学习区分正确的翻译和包含幻觉的翻译，从而降低生成幻觉的可能性。这种方法避免了事后处理的复杂性，并直接从模型层面解决问题。

技术框架：该方法包含一个数据创建框架和一个微调过程。数据创建框架用于生成幻觉偏好数据集，该数据集包含正确的翻译和包含幻觉的翻译，并标注了偏好关系。然后，使用该数据集对LLM进行微调，使其学习偏好正确的翻译。整体流程是：1. 构建幻觉数据集；2. 使用数据集进行偏好学习微调；3. 评估翻译质量和幻觉率。

关键创新：关键创新在于提出了幻觉偏好优化方法，通过构建专门的偏好数据集，引导LLM学习避免生成幻觉。与传统方法不同，该方法不是事后补救，而是从模型训练层面解决问题，更具根本性和效率。

关键设计：数据创建框架是关键设计之一，它需要生成高质量的幻觉数据，并准确标注偏好关系。具体的偏好学习方法（例如，pairwise ranking loss）和超参数设置也会影响最终效果。论文中可能使用了特定的损失函数来优化模型，使其能够区分和偏好无幻觉的翻译结果。具体网络结构沿用了LLM的结构，重点在于微调策略和数据集构建。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在五个语言对上平均降低了96%的幻觉率，同时保持了整体翻译质量。在零样本设置中，该方法在三种未见过的目标语言中平均降低了89%的幻觉。这些结果表明该方法具有良好的泛化能力和实用价值。

🎯 应用场景

该研究成果可应用于各种基于LLM的机器翻译系统，提高翻译质量和用户信任度。尤其适用于对翻译准确性要求高的场景，如法律、医疗等领域。未来可进一步探索该方法在其他自然语言处理任务中的应用，如文本摘要、对话生成等，以减少LLM的幻觉问题。

📄 摘要（原文）

Machine Translation (MT) is undergoing a paradigm shift, with systems based on fine-tuned large language models (LLM) becoming increasingly competitive with traditional encoder-decoder models trained specifically for translation tasks. However, LLM-based systems are at a higher risk of generating hallucinations, which can severely undermine user's trust and safety. Most prior research on hallucination mitigation focuses on traditional MT models, with solutions that involve post-hoc mitigation - detecting hallucinated translations and re-translating them. While effective, this approach introduces additional complexity in deploying extra tools in production and also increases latency. To address these limitations, we propose a method that intrinsically learns to mitigate hallucinations during the model training phase. Specifically, we introduce a data creation framework to generate hallucination focused preference datasets. Fine-tuning LLMs on these preference datasets reduces the hallucination rate by an average of 96% across five language pairs, while preserving overall translation quality. In a zero-shot setting our approach reduces hallucinations by 89% on an average across three unseen target languages.

Mitigating Hallucinated Translations in Large Language Models with Hallucination-focused Preference Optimization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理