Improving Factual Error Correction by Learning to Inject Factual Errors

📄 arXiv: 2312.07049v1 📥 PDF

作者: Xingwei He, Qianru Zhang, A-Long Jin, Jun Ma, Yuan Yuan, Siu Ming Yiu

分类: cs.CL

发布日期: 2023-12-12

备注: Accepted to AAAI 2024


💡 一句话要点

提出LIFE框架,通过学习注入错误来提升事实错误纠正效果

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 事实错误纠正 远距离监督 数据增强 错误注入 自然语言处理

📋 核心要点

  1. 现有事实错误纠正方法依赖masker识别错误,但缺乏配对数据导致masker训练困难,影响纠正效果。
  2. LIFE框架通过训练corruptor注入错误,生成配对数据,从而避免对masker的依赖,直接训练纠正器。
  3. 实验表明,LIFE显著优于现有远距离监督方法,甚至超越了使用上下文学习的ChatGPT。

📝 摘要(中文)

事实错误纠正(FEC)旨在通过最小的编辑来修正错误声明中的事实错误,使其忠实于提供的证据。这项任务对于缓解大型语言模型遇到的幻觉问题至关重要。鉴于缺乏配对数据(即,错误声明及其对应的正确声明),现有方法通常采用mask-then-correct范式。这种范式仅依赖于未配对的错误声明和正确声明,因此被称为远距离监督方法。这些方法需要一个masker来显式地识别错误声明中的事实错误,然后再由纠正器进行修改。然而,由于缺乏配对数据来训练masker,因此准确地查明声明中的事实错误具有挑战性。为了缓解这个问题,我们提出通过学习注入事实错误(LIFE)来改进FEC,这是一种三步远距离监督方法:mask-corrupt-correct。具体来说,我们首先使用mask-then-corrupt程序训练一个corruptor,使其能够故意将事实错误引入到正确的文本中。然后将corruptor应用于正确的声明,生成大量的配对数据。之后,我们过滤掉低质量的数据,并使用剩余的数据来训练一个纠正器。值得注意的是,我们的纠正器不需要masker,从而避免了与显式事实错误识别相关的瓶颈。在公共数据集上的实验验证了LIFE在两个关键方面的有效性:首先,它以10.59个SARI Final点的显著优势优于之前表现最佳的远距离监督方法(提升19.3%)。其次,即使与使用上下文示例提示的ChatGPT相比,LIFE在SARI Final中也实现了7.16点的优势。

🔬 方法详解

问题定义:事实错误纠正(FEC)旨在修正错误声明中的事实性错误,使其与提供的证据一致。现有方法,特别是远距离监督方法,依赖于masker来定位错误,但由于缺乏配对数据,masker的准确性成为瓶颈。

核心思路:LIFE的核心思想是通过学习如何注入错误来生成伪配对数据,从而绕过对精确masker的需求。通过训练一个corruptor,将正确的文本转换为包含事实错误的文本,从而创建训练纠正器所需的数据。

技术框架:LIFE框架包含三个主要步骤:1) Mask-then-Corrupt: 使用mask-then-correct的思路训练一个corruptor,使其能够将正确的文本转换为包含事实错误的文本。2) 数据生成与过滤: 使用训练好的corruptor对正确的文本进行错误注入,生成大量的伪配对数据,并使用一定的策略过滤掉低质量的数据。3) 纠正器训练: 使用过滤后的伪配对数据训练一个纠正器,该纠正器直接学习如何将包含错误的文本转换为正确的文本。

关键创新:LIFE的关键创新在于避免了对显式事实错误识别的依赖。通过学习如何注入错误,该方法能够生成大量的伪配对数据,从而可以直接训练纠正器,而无需依赖于不准确的masker。

关键设计:corruptor的训练采用mask-then-corrupt的策略,即首先mask掉部分词语,然后使用模型预测替换这些词语。数据过滤策略可能包括基于置信度的过滤或基于编辑距离的过滤。纠正器的训练可以使用标准的序列到序列模型,并采用交叉熵损失函数。

📊 实验亮点

实验结果表明,LIFE在事实错误纠正任务上取得了显著的性能提升。相较于之前表现最佳的远距离监督方法,LIFE在SARI Final指标上提升了10.59个点(提升幅度达19.3%)。更令人印象深刻的是,LIFE甚至超越了使用上下文学习的ChatGPT,在SARI Final指标上高出7.16个点,证明了其强大的纠错能力。

🎯 应用场景

该研究成果可应用于各种需要事实核查和内容修正的场景,例如新闻校对、虚假信息检测与纠正、以及提升大型语言模型生成内容的真实性和可靠性。通过自动修正错误信息,可以减少人工干预,提高信息处理效率,并降低错误信息传播的风险。

📄 摘要(原文)

Factual error correction (FEC) aims to revise factual errors in false claims with minimal editing, making them faithful to the provided evidence. This task is crucial for alleviating the hallucination problem encountered by large language models. Given the lack of paired data (i.e., false claims and their corresponding correct claims), existing methods typically adopt the mask-then-correct paradigm. This paradigm relies solely on unpaired false claims and correct claims, thus being referred to as distantly supervised methods. These methods require a masker to explicitly identify factual errors within false claims before revising with a corrector. However, the absence of paired data to train the masker makes accurately pinpointing factual errors within claims challenging. To mitigate this, we propose to improve FEC by Learning to Inject Factual Errors (LIFE), a three-step distantly supervised method: mask-corrupt-correct. Specifically, we first train a corruptor using the mask-then-corrupt procedure, allowing it to deliberately introduce factual errors into correct text. The corruptor is then applied to correct claims, generating a substantial amount of paired data. After that, we filter out low-quality data, and use the remaining data to train a corrector. Notably, our corrector does not require a masker, thus circumventing the bottleneck associated with explicit factual error identification. Our experiments on a public dataset verify the effectiveness of LIFE in two key aspects: Firstly, it outperforms the previous best-performing distantly supervised method by a notable margin of 10.59 points in SARI Final (19.3% improvement). Secondly, even compared to ChatGPT prompted with in-context examples, LIFE achieves a superiority of 7.16 points in SARI Final.