Aligning Large Language Models to Follow Instructions and Hallucinate Less via Effective Data Filtering

📄 arXiv: 2502.07340v3 📥 PDF

作者: Shuzheng Si, Haozhe Zhao, Gang Chen, Cheng Gao, Yuzhuo Bai, Zhitong Wang, Kaikai An, Kangyang Luo, Chen Qian, Fanchao Qi, Baobao Chang, Maosong Sun

分类: cs.CL, cs.AI

发布日期: 2025-02-11 (更新: 2025-05-26)

备注: ACL 2025


💡 一句话要点

提出NOVA框架,通过数据过滤减少大语言模型指令调优中的幻觉问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 指令调优 幻觉 数据过滤 内部一致性 语义等价性 奖励模型 知识对齐

📋 核心要点

  1. 指令调优阶段使用包含不熟悉知识的数据训练LLM,容易导致幻觉问题。
  2. NOVA框架通过内部一致性探测(ICP)和语义等价性识别(SEI)来评估LLM对数据的熟悉程度,从而过滤高质量数据。
  3. NOVA框架还引入了专家对齐的奖励模型,以确保所选样本的质量,提升LLM的指令遵循能力并减少幻觉。

📝 摘要(中文)

本文提出了一种名为NOVA的新框架,旨在识别与大语言模型(LLM)已学习知识对齐的高质量数据,从而减少指令调优阶段的幻觉问题。NOVA包含内部一致性探测(ICP)和语义等价性识别(SEI)两个模块,用于衡量LLM对指令数据的熟悉程度。ICP通过计算多个自生成响应之间的一致性来评估LLM对给定指令的理解。SEI通过语义聚类和精心设计的投票策略,将目标响应与生成响应进行比较,从而评估LLM对目标响应的熟悉程度。最后,为了确保所选样本的质量,引入了一个专家对齐的奖励模型,该模型考虑了熟悉度之外的特征。通过考虑数据质量并避免不熟悉的数据,可以利用所选数据有效地对齐LLM,使其遵循指令并减少幻觉。

🔬 方法详解

问题定义:现有的大语言模型在指令调优阶段,如果使用包含模型不熟悉知识的数据进行训练,容易导致模型产生幻觉,即生成不真实或不准确的内容。现有的方法缺乏有效的数据过滤机制,无法区分模型熟悉和不熟悉的数据,导致训练效果不佳。

核心思路:NOVA框架的核心思路是通过评估LLM对指令数据的熟悉程度来过滤数据。具体来说,它通过内部一致性探测(ICP)来评估LLM对指令的理解,通过语义等价性识别(SEI)来评估LLM对目标响应的熟悉程度。选择LLM更熟悉的数据进行训练,可以减少幻觉的产生。

技术框架:NOVA框架主要包含三个模块:1) 内部一致性探测(ICP):通过多次生成对同一指令的响应,并计算这些响应之间的一致性,来评估LLM对指令的理解程度。2) 语义等价性识别(SEI):将目标响应与LLM生成的响应进行比较,通过语义聚类和投票策略,判断LLM是否熟悉目标响应。3) 专家对齐奖励模型:用于进一步评估所选样本的质量,考虑熟悉度之外的因素,例如安全性、有用性等。

关键创新:NOVA框架的关键创新在于提出了ICP和SEI两种方法来评估LLM对数据的熟悉程度。ICP通过自生成响应的一致性来评估指令理解,SEI通过语义聚类和投票策略来评估目标响应的熟悉程度。这两种方法能够有效地识别LLM不熟悉的数据,从而避免在指令调优中使用这些数据。

关键设计:在ICP中,需要选择合适的相似度度量方法来计算响应之间的一致性。在SEI中,需要设计有效的语义聚类算法和投票策略,以准确判断LLM是否熟悉目标响应。专家对齐奖励模型的设计需要考虑多个因素,例如安全性、有用性、信息量等,并进行合理的权重分配。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出的NOVA框架能够有效减少大语言模型在指令调优阶段的幻觉问题。通过内部一致性探测(ICP)和语义等价性识别(SEI),NOVA能够识别与LLM已学习知识对齐的高质量数据,从而提升LLM的指令遵循能力和生成内容的准确性。具体实验数据未知,但摘要表明该方法在减少幻觉方面取得了显著效果。

🎯 应用场景

该研究成果可应用于各种需要高质量指令遵循的大语言模型应用场景,例如智能助手、对话系统、内容生成等。通过减少幻觉,可以提高LLM生成内容的可靠性和实用性,增强用户信任度,并降低错误信息传播的风险。该方法也有助于提升LLM在特定领域的专业能力,例如医疗、金融等。

📄 摘要(原文)

Training LLMs on data containing unfamiliar knowledge during the instruction tuning stage can encourage hallucinations. To address this challenge, we introduce NOVA, a novel framework designed to identify high-quality data that aligns well with the LLM's learned knowledge to reduce hallucinations. NOVA includes Internal Consistency Probing (ICP) and Semantic Equivalence Identification (SEI) to measure how familiar the LLM is with instruction data. Specifically, ICP evaluates the LLM's understanding of the given instruction by calculating the tailored consistency among multiple self-generated responses. SEI further assesses the familiarity of the LLM with the target response by comparing it to the generated responses, using the proposed semantic clustering and well-designed voting strategy. Finally, to ensure the quality of selected samples, we introduce an expert-aligned reward model, considering characteristics beyond just familiarity. By considering data quality and avoiding unfamiliar data, we can utilize the selected data to effectively align LLMs to follow instructions and hallucinate less.