Harnessing RLHF for Robust Unanswerability Recognition and Trustworthy Response Generation in LLMs

📄 arXiv: 2507.16951v1 📥 PDF

作者: Shuyuan Lin, Lei Duan, Philip Hughes, Yuxuan Sheng

分类: cs.CL

发布日期: 2025-07-22


💡 一句话要点

提出SALU,利用RLHF提升LLM在对话信息检索中对无法回答问题的识别能力和可信赖回复生成。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 强化学习 人类反馈 对话信息检索 无法回答问题识别 幻觉抑制 多任务学习

📋 核心要点

  1. 现有对话信息检索系统难以可靠处理无法回答的问题,容易生成误导性或幻觉内容。
  2. SALU将无法回答的检测直接集成到LLM的生成过程中,通过多任务学习和RLHF训练提升模型自我认知能力。
  3. 实验表明,SALU在准确性、事实性和减少幻觉方面优于现有方法,实现了更可靠的问答系统。

📝 摘要(中文)

会话式信息检索(CIR)系统在提供直观信息访问的同时,面临着一个重大挑战:可靠地处理无法回答的问题,以防止生成误导性或幻觉内容。传统方法通常依赖于外部分类器,这可能导致与核心生成式大型语言模型(LLM)的不一致。本文介绍了一种名为Self-Aware LLM for Unanswerability (SALU)的新方法,该方法将无法回答的检测直接集成到LLM的生成过程中。SALU使用多任务学习框架进行训练,既能进行标准问答(QA),又能为无法回答的查询生成明确的拒绝回答。至关重要的是,它结合了一个置信度分数引导的强化学习与人类反馈(RLHF)阶段,该阶段明确地惩罚幻觉回复并奖励适当的拒绝回答,从而培养对知识边界的内在自我意识。通过在我们定制的C-IR_Answerability数据集上进行的大量实验,SALU在正确回答或拒绝回答问题的总体准确性方面始终优于强大的基线,包括混合LLM-分类器系统。人工评估进一步证实了SALU的卓越可靠性,在事实性、适当的拒绝回答以及最重要的幻觉的显著减少方面取得了高分,证明了它能够可靠地“知道何时说‘我不知道’”。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在对话式信息检索(CIR)中,对于无法回答的问题生成不准确或虚假信息的问题。现有方法通常依赖于外部分类器来判断问题是否可回答,但这种方式与LLM本身的生成过程脱节,容易导致不一致性,影响系统的整体可靠性。

核心思路:论文的核心思路是将“无法回答”的判断能力内化到LLM自身。通过训练LLM使其不仅能够回答问题,还能识别并主动拒绝回答那些超出其知识范围或无法准确回答的问题,从而减少幻觉信息的产生。这种“自我认知”能力是通过多任务学习和强化学习与人类反馈(RLHF)相结合的方式实现的。

技术框架:SALU的技术框架主要包含以下几个阶段:1) 多任务学习:使用QA数据集和专门构建的包含无法回答问题的C-IR_Answerability数据集,同时训练LLM进行标准问答和拒绝回答。2) 置信度分数引导:在生成答案或拒绝回答时,模型会输出一个置信度分数,表示其对答案或拒绝回答的把握程度。3) RLHF:利用人类反馈,通过强化学习来优化模型的行为。具体来说,对于生成幻觉信息的回复,给予负向奖励;对于正确拒绝回答,给予正向奖励。这个阶段的目标是让模型学会根据置信度分数,做出更明智的回答或拒绝回答的决策。

关键创新:SALU的关键创新在于将无法回答的检测能力深度集成到LLM的生成过程中,避免了传统方法中外部分类器带来的不一致性。通过置信度分数引导的RLHF,模型能够学习到更细粒度的知识边界,从而更准确地判断何时应该回答,何时应该拒绝回答。这种内生的自我认知能力是SALU优于其他方法的核心原因。

关键设计:C-IR_Answerability数据集的构建,包含了大量无法回答的问题,是训练SALU的关键。RLHF阶段的奖励函数设计至关重要,需要仔细权衡对幻觉信息和拒绝回答的惩罚和奖励力度,以确保模型能够学习到正确的行为。置信度分数的计算方法也需要仔细设计,以准确反映模型对答案或拒绝回答的把握程度。具体的网络结构和参数设置在论文中可能有所描述,但摘要中未明确提及。

📊 实验亮点

SALU在C-IR_Answerability数据集上进行了广泛的实验,结果表明,SALU在总体准确性方面优于包括混合LLM-分类器系统在内的强大基线。人工评估进一步证实了SALU的卓越可靠性,在事实性、适当的拒绝回答以及最重要的幻觉的显著减少方面取得了高分,证明了它能够可靠地“知道何时说‘我不知道’”。具体性能提升数据未知。

🎯 应用场景

SALU在对话式信息检索、智能客服、医疗问答等领域具有广泛的应用前景。它可以有效减少LLM生成错误或虚假信息的风险,提高系统的可靠性和用户信任度。未来,该技术可以应用于更复杂的知识密集型任务,例如辅助诊断、法律咨询等,为用户提供更准确、更可信赖的信息服务。

📄 摘要(原文)

Conversational Information Retrieval (CIR) systems, while offering intuitive access to information, face a significant challenge: reliably handling unanswerable questions to prevent the generation of misleading or hallucinated content. Traditional approaches often rely on external classifiers, which can introduce inconsistencies with the core generative Large Language Models (LLMs). This paper introduces Self-Aware LLM for Unanswerability (SALU), a novel approach that deeply integrates unanswerability detection directly within the LLM's generative process. SALU is trained using a multi-task learning framework for both standard Question Answering (QA) and explicit abstention generation for unanswerable queries. Crucially, it incorporates a confidence-score-guided reinforcement learning with human feedback (RLHF) phase, which explicitly penalizes hallucinated responses and rewards appropriate abstentions, fostering intrinsic self-awareness of knowledge boundaries. Through extensive experiments on our custom-built C-IR_Answerability dataset, SALU consistently outperforms strong baselines, including hybrid LLM-classifier systems, in overall accuracy for correctly answering or abstaining from questions. Human evaluation further confirms SALU's superior reliability, achieving high scores in factuality, appropriate abstention, and, most importantly, a dramatic reduction in hallucination, demonstrating its ability to robustly "know when to say 'I don't know'."