Teaching LLMs to Abstain via Fine-Grained Semantic Confidence Reward
作者: Hao An, Yang Xu
分类: cs.CL, cs.AI
发布日期: 2025-10-28
备注: 23pages, 4figures
💡 一句话要点
提出细粒度语义置信度奖励,提升LLM的拒绝回答能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 拒绝回答 幻觉缓解 强化学习 语义聚类
📋 核心要点
- 现有LLM拒绝回答方法依赖粗粒度置信度信号,导致模型知识边界感知不精确。
- 提出FiSeCoRe框架,通过样本特定置信度引导LLM拒绝回答,提升拒绝回答的准确性。
- 实验表明,该方法显著提高了领域内和分布外基准测试的可靠性,并提出了新的评估指标。
📝 摘要(中文)
缓解大型语言模型(LLM)中的幻觉对于其可靠部署至关重要。现有方法通常微调LLM,使其拒绝回答超出其知识范围的问题。然而,这些方法通常依赖于粗粒度的信号来引导LLM拒绝回答,例如对多个采样答案的总体置信度或不确定性分数,这可能导致模型自身知识边界的不精确感知。为此,我们提出了一个基于细粒度语义置信度奖励(FiSeCoRe)的新型强化学习框架,通过样本特定的置信度来引导LLM拒绝回答。具体来说,我们的方法通过采样多个候选答案并进行语义聚类来运作,然后训练LLM以保留高置信度集群中的答案并丢弃低置信度集群中的答案,从而促进准确的事后拒绝回答。此外,我们提出了一种新的指标,用于更全面地评估拒绝回答微调任务的可靠性。我们的方法显著提高了领域内和分布外基准测试的可靠性。
🔬 方法详解
问题定义:现有的大型语言模型(LLM)在面对超出其知识范围的问题时,容易产生幻觉,即生成不真实或不准确的答案。现有的拒绝回答方法通常依赖于对多个采样答案的总体置信度或不确定性分数等粗粒度信号,这使得模型难以精确感知自身的知识边界,从而影响拒绝回答的准确性。
核心思路:论文的核心思路是通过引入细粒度的语义置信度奖励,使LLM能够基于每个样本的置信度进行判断,从而更准确地识别并拒绝回答超出其知识范围的问题。通过语义聚类,将相似的答案归为一类,并根据聚类的置信度来决定是否保留或丢弃该类中的答案。
技术框架:该方法基于强化学习框架,主要包含以下几个阶段:1) 采样多个候选答案;2) 对候选答案进行语义聚类;3) 根据聚类的置信度计算奖励;4) 使用强化学习算法训练LLM,使其学会保留高置信度集群中的答案,并丢弃低置信度集群中的答案。
关键创新:该方法最重要的创新点在于引入了细粒度的语义置信度奖励,这与现有方法中使用的粗粒度置信度信号形成对比。通过语义聚类,可以更准确地评估每个答案的置信度,从而提高拒绝回答的准确性。此外,论文还提出了一个新的评估指标,用于更全面地评估拒绝回答微调任务的可靠性。
关键设计:在语义聚类方面,可以使用各种聚类算法,例如k-means或DBSCAN。置信度的计算可以基于聚类中答案的一致性或与已知正确答案的相似度。强化学习算法可以选择常见的策略梯度算法,例如REINFORCE或PPO。奖励函数的设计至关重要,需要平衡拒绝回答的准确性和覆盖率。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在领域内和分布外基准测试中均显著提高了拒绝回答的可靠性。具体性能数据和对比基线在论文中给出,证明了FiSeCoRe框架的有效性。同时,论文提出的新评估指标也为评估拒绝回答任务的可靠性提供了更全面的视角。
🎯 应用场景
该研究成果可应用于各种需要LLM提供可靠答案的场景,例如智能客服、医疗诊断、金融分析等。通过提高LLM的拒绝回答能力,可以减少错误信息的传播,提高用户对LLM的信任度,并降低因LLM产生幻觉而造成的风险。未来,该方法可以进一步扩展到其他类型的LLM和任务中。
📄 摘要(原文)
Mitigating hallucinations in Large Language Models (LLMs) is critical for their reliable deployment. Existing methods typically fine-tune LLMs to abstain from answering questions beyond their knowledge scope. However, these methods often rely on coarse-grained signals to guide LLMs to abstain, such as overall confidence or uncertainty scores on multiple sampled answers, which may result in an imprecise awareness of the model's own knowledge boundaries. To this end, we propose a novel reinforcement learning framework built on $\textbf{\underline{Fi}ne-grained \underline{S}emantic \underline{Co}nfidence \underline{Re}ward (\Ours)}$, which guides LLMs to abstain via sample-specific confidence. Specifically, our method operates by sampling multiple candidate answers and conducting semantic clustering, then training the LLM to retain answers within high-confidence clusters and discard those within low-confidence ones, thereby promoting accurate post-hoc abstention. Additionally, we propose a new metric for evaluating the reliability of abstention fine-tuning tasks more comprehensively. Our method significantly enhances reliability in both in-domain and out-of-distribution benchmarks.