Mitigating Hallucinated Translations in Large Language Models with Hallucination-focused Preference Optimization
作者: Zilu Tang, Rajen Chatterjee, Sarthak Garg
分类: cs.CL, cs.AI, cs.LG
发布日期: 2025-01-28
备注: NAACL 2025 Main Conference Long paper (9 pages)
期刊: NAACL 2025
💡 一句话要点
提出基于幻觉偏好优化的LLM翻译方法,显著降低翻译幻觉
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器翻译 大型语言模型 幻觉缓解 偏好优化 微调 数据增强 零样本学习
📋 核心要点
- 现有基于LLM的机器翻译系统易产生幻觉,降低用户信任,且传统事后缓解方法增加部署复杂性和延迟。
- 论文提出一种在模型训练阶段内在学习减少幻觉的方法,通过构建幻觉偏好数据集进行微调。
- 实验表明,该方法在多个语言对上显著降低幻觉率,平均降低96%,且在零样本设置下也有显著效果。
📝 摘要(中文)
机器翻译(MT)正在经历范式转变,基于微调的大型语言模型(LLM)的系统在翻译任务中变得越来越有竞争力,可以与专门为翻译任务训练的传统编码器-解码器模型相媲美。然而,基于LLM的系统产生幻觉的风险更高,这会严重损害用户的信任和安全性。以往关于减少幻觉的研究大多集中在传统的MT模型上,其解决方案包括事后缓解——检测产生幻觉的翻译并重新翻译。虽然有效,但这种方法在生产中部署额外的工具会带来额外的复杂性,并增加延迟。为了解决这些局限性,我们提出了一种在模型训练阶段内在学习以减少幻觉的方法。具体来说,我们引入了一个数据创建框架来生成以幻觉为重点的偏好数据集。在这些偏好数据集上微调LLM,可以在五个语言对中平均降低96%的幻觉率,同时保持整体翻译质量。在零样本设置中,我们的方法在三种未见过的目标语言中平均降低了89%的幻觉。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在机器翻译任务中产生的幻觉问题。现有方法,如事后检测和重新翻译,增加了部署复杂性和延迟,并且没有从根本上解决LLM生成幻觉的内在倾向。
核心思路:核心思路是在模型训练阶段,通过引入幻觉偏好优化,使LLM学习区分正确的翻译和包含幻觉的翻译,从而降低生成幻觉的可能性。这种方法避免了事后处理的复杂性,并直接从模型层面解决问题。
技术框架:该方法包含一个数据创建框架和一个微调过程。数据创建框架用于生成幻觉偏好数据集,该数据集包含正确的翻译和包含幻觉的翻译,并标注了偏好关系。然后,使用该数据集对LLM进行微调,使其学习偏好正确的翻译。整体流程是:1. 构建幻觉数据集;2. 使用数据集进行偏好学习微调;3. 评估翻译质量和幻觉率。
关键创新:关键创新在于提出了幻觉偏好优化方法,通过构建专门的偏好数据集,引导LLM学习避免生成幻觉。与传统方法不同,该方法不是事后补救,而是从模型训练层面解决问题,更具根本性和效率。
关键设计:数据创建框架是关键设计之一,它需要生成高质量的幻觉数据,并准确标注偏好关系。具体的偏好学习方法(例如,pairwise ranking loss)和超参数设置也会影响最终效果。论文中可能使用了特定的损失函数来优化模型,使其能够区分和偏好无幻觉的翻译结果。具体网络结构沿用了LLM的结构,重点在于微调策略和数据集构建。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在五个语言对上平均降低了96%的幻觉率,同时保持了整体翻译质量。在零样本设置中,该方法在三种未见过的目标语言中平均降低了89%的幻觉。这些结果表明该方法具有良好的泛化能力和实用价值。
🎯 应用场景
该研究成果可应用于各种基于LLM的机器翻译系统,提高翻译质量和用户信任度。尤其适用于对翻译准确性要求高的场景,如法律、医疗等领域。未来可进一步探索该方法在其他自然语言处理任务中的应用,如文本摘要、对话生成等,以减少LLM的幻觉问题。
📄 摘要(原文)
Machine Translation (MT) is undergoing a paradigm shift, with systems based on fine-tuned large language models (LLM) becoming increasingly competitive with traditional encoder-decoder models trained specifically for translation tasks. However, LLM-based systems are at a higher risk of generating hallucinations, which can severely undermine user's trust and safety. Most prior research on hallucination mitigation focuses on traditional MT models, with solutions that involve post-hoc mitigation - detecting hallucinated translations and re-translating them. While effective, this approach introduces additional complexity in deploying extra tools in production and also increases latency. To address these limitations, we propose a method that intrinsically learns to mitigate hallucinations during the model training phase. Specifically, we introduce a data creation framework to generate hallucination focused preference datasets. Fine-tuning LLMs on these preference datasets reduces the hallucination rate by an average of 96% across five language pairs, while preserving overall translation quality. In a zero-shot setting our approach reduces hallucinations by 89% on an average across three unseen target languages.