Reinforcement Learning for Better Verbalized Confidence in Long-Form Generation
作者: Caiqi Zhang, Xiaochen Zhu, Chengzu Li, Nigel Collier, Andreas Vlachos
分类: cs.CL, cs.AI
发布日期: 2025-05-29
💡 一句话要点
提出LoVeC:利用强化学习提升长文本生成中置信度表达的质量
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长文本生成 置信度估计 强化学习 幻觉检测 语言模型校准
📋 核心要点
- 现有长文本生成模型易产生幻觉,置信度估计是关键,但后处理方法计算成本高,口头置信度方法泛化性差。
- LoVeC通过强化学习训练LLM,使其在生成内容时同步输出数值置信度,提供直接且可解释的事实性信号。
- 实验表明,使用DPO、ORPO、GRPO等RL方法训练的模型,在长文本QA任务上实现了更好的校准和泛化能力。
📝 摘要(中文)
大型语言模型(LLMs)在生成事实性内容时面临幻觉问题,这严重影响了其安全性和可信度。置信度估计被认为是检测幻觉的有效方法,但现有方法通常依赖于计算成本高的事后自洽性方法。口头置信度提供了一种更高效的替代方案,但现有方法主要局限于短文本问答(QA)任务,并且不能很好地推广到开放式生成。本文提出LoVeC(Long-form Verbalized Confidence),一种用于长文本生成的即时口头置信度估计方法。具体来说,我们使用强化学习(RL)训练LLMs,使其在每个生成的语句后附加数值置信度分数,作为生成事实性的直接且可解释的信号。我们的实验考虑了策略上和策略外的RL方法,包括DPO、ORPO和GRPO,以增强模型校准。我们引入了两种新的评估设置,自由形式标注和迭代标注,以评估不同的口头置信度估计方法。在三个长文本QA数据集上的实验表明,我们经过RL训练的模型实现了更好的校准,并且在不同领域中具有鲁棒的泛化能力。此外,我们的方法非常高效,因为它只需要在解码的输出中添加几个token。
🔬 方法详解
问题定义:论文旨在解决长文本生成中大型语言模型(LLMs)产生幻觉的问题,即生成不真实或与事实相悖的内容。现有方法,如事后自洽性方法,需要多次采样和计算,效率低下。而现有的口头置信度方法主要针对短文本问答,无法有效推广到开放式的长文本生成任务中。
核心思路:论文的核心思路是利用强化学习(RL)训练LLMs,使其在生成长文本的同时,能够同步输出数值置信度分数。这些分数直接附加在生成的语句之后,作为模型对自身生成内容真实性的评估。通过这种方式,模型能够提供可解释的置信度信号,从而更容易检测和纠正幻觉。
技术框架:LoVeC的技术框架主要包括以下几个阶段:1) 使用预训练的LLM作为基础模型。2) 设计强化学习奖励函数,鼓励模型生成准确且置信度高的内容,惩罚生成错误或低置信度的内容。3) 使用策略上(on-policy)或策略外(off-policy)的RL算法(如DPO、ORPO、GRPO)对模型进行微调。4) 在生成过程中,模型在每个语句后附加数值置信度分数。5) 使用自由形式标注和迭代标注等评估方法,评估模型的校准性能。
关键创新:LoVeC的关键创新在于:1) 提出了一种用于长文本生成的即时口头置信度估计方法,避免了事后处理的计算开销。2) 利用强化学习直接训练LLM生成置信度分数,使得置信度信号更加直接和可解释。3) 提出了两种新的评估设置(自由形式标注和迭代标注),更全面地评估口头置信度估计方法的性能。
关键设计:在强化学习训练中,奖励函数的设计至关重要。论文可能采用了以下设计:1) 准确性奖励:根据生成内容的事实性给予奖励,可以使用外部知识库或人工标注进行验证。2) 置信度奖励:鼓励模型输出与实际准确性相符的置信度分数,例如,如果生成的内容是正确的,则输出高置信度分数,反之则输出低置信度分数。3) 惩罚项:对生成错误或低置信度的内容进行惩罚。此外,选择合适的RL算法(DPO、ORPO、GRPO)以及调整相应的超参数也是关键的设计细节。
🖼️ 关键图片
📊 实验亮点
实验结果表明,经过RL训练的LoVeC模型在三个长文本QA数据集上实现了更好的校准性能,并且在不同领域中具有鲁棒的泛化能力。与现有方法相比,LoVeC在提高置信度估计准确性的同时,显著降低了计算成本,因为它只需要在解码的输出中添加几个token。具体性能提升数据未知,但强调了校准性能的提升。
🎯 应用场景
该研究成果可应用于各种需要生成事实性长文本的场景,例如自动报告生成、新闻写作、科学文献综述等。通过提供可信度评估,可以提高生成内容的质量和可靠性,减少错误信息的传播。未来,该方法可以进一步扩展到其他语言和领域,并与其他幻觉检测和纠正技术相结合,构建更安全、更值得信赖的LLM应用。
📄 摘要(原文)
Hallucination remains a major challenge for the safe and trustworthy deployment of large language models (LLMs) in factual content generation. Prior work has explored confidence estimation as an effective approach to hallucination detection, but often relies on post-hoc self-consistency methods that require computationally expensive sampling. Verbalized confidence offers a more efficient alternative, but existing approaches are largely limited to short-form question answering (QA) tasks and do not generalize well to open-ended generation. In this paper, we propose LoVeC (Long-form Verbalized Confidence), an on-the-fly verbalized confidence estimation method for long-form generation. Specifically, we use reinforcement learning (RL) to train LLMs to append numerical confidence scores to each generated statement, serving as a direct and interpretable signal of the factuality of generation. Our experiments consider both on-policy and off-policy RL methods, including DPO, ORPO, and GRPO, to enhance the model calibration. We introduce two novel evaluation settings, free-form tagging and iterative tagging, to assess different verbalized confidence estimation methods. Experiments on three long-form QA datasets show that our RL-trained models achieve better calibration and generalize robustly across domains. Also, our method is highly efficient, as it only requires adding a few tokens to the output being decoded.