Verifiable Accuracy and Abstention Rewards in Curriculum RL to Alleviate Lost-in-Conversation

作者: Ming Li

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-10-21

💡 一句话要点

提出RLAAR框架，通过可验证奖励的课程强化学习缓解多轮对话中的信息丢失问题。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 强化学习 课程学习 多轮对话 信息丢失 可验证奖励 大型语言模型 弃权机制

📋 核心要点

现有大型语言模型在多轮对话中存在信息丢失问题，即随着对话轮数的增加，性能显著下降。
论文提出RLAAR框架，通过课程学习和可验证的奖励机制，鼓励模型判断问题可解性并适时选择弃权。
实验表明，RLAAR显著降低了信息丢失带来的性能衰减，并提高了模型在多轮对话中的可靠性。

📝 摘要（中文）

大型语言模型在单轮指令跟随方面表现出强大的能力，但在多轮对话环境中，随着信息的逐步揭示，性能会下降，即出现信息丢失(Lost-in-Conversation, LiC)现象。受可验证奖励强化学习(RLVR)最新进展的启发，我们提出了具有可验证准确性和弃权奖励的课程强化学习(RLAAR)框架。该框架鼓励模型不仅生成正确的答案，还要判断多轮对话中问题的可解性。我们的方法采用了一种能力门控课程，逐步增加对话难度（以指令碎片的形式），在稳定训练的同时提高可靠性。通过使用多轮、on-policy的rollout和混合奖励系统，RLAAR教导模型在解决问题和知情弃权之间取得平衡，从而减少导致LiC的过早回答行为。在LiC基准测试中，RLAAR显著降低了LiC的性能衰减（从62.6%提高到75.1%），并提高了校准后的弃权率（从33.5%提高到73.4%）。这些结果共同为构建多轮可靠和值得信赖的LLM提供了一个实用的方案。

🔬 方法详解

问题定义：论文旨在解决大型语言模型在多轮对话中出现的“信息丢失”（Lost-in-Conversation, LiC）问题。现有方法在处理多轮对话时，往往难以保持对先前信息的有效利用，导致性能随着对话轮数的增加而下降。痛点在于模型无法准确判断何时应该尝试回答，何时应该选择放弃，从而避免因信息不足而产生错误答案。

核心思路：RLAAR的核心思路是通过强化学习训练模型，使其具备判断问题可解性的能力，并学会适时选择“弃权”。通过引入可验证的准确性奖励和弃权奖励，鼓励模型在不确定时选择放弃，从而避免因信息不足而导致的错误回答。课程学习则用于逐步增加对话难度，稳定训练过程，并提高模型的泛化能力。

技术框架：RLAAR框架主要包含以下几个关键模块：1) 环境：模拟多轮对话场景，逐步揭示问题信息。2) 智能体：大型语言模型，负责生成答案或选择弃权。3) 奖励函数：包含可验证的准确性奖励和弃权奖励，用于指导智能体的学习。4) 课程学习：逐步增加对话难度，从简单的单轮对话到复杂的多轮对话。5) 能力门控：根据模型的能力动态调整课程难度，确保训练的稳定性和有效性。

关键创新：RLAAR的关键创新在于将可验证奖励的强化学习与课程学习相结合，并引入了弃权机制。这使得模型不仅能够学习生成正确的答案，还能够学习判断问题的可解性，并在不确定时选择放弃。这种方法有效地缓解了多轮对话中的信息丢失问题，提高了模型的可靠性。

关键设计：RLAAR的关键设计包括：1) 混合奖励系统：平衡准确性奖励和弃权奖励，鼓励模型在解决问题和知情弃权之间取得平衡。2) 能力门控课程：根据模型的能力动态调整课程难度，确保训练的稳定性和有效性。3) 多轮、on-policy的rollout：利用多轮对话数据进行训练，提高模型对多轮对话场景的适应性。4) 损失函数：采用合适的损失函数来优化模型的参数，例如交叉熵损失函数。

🖼️ 关键图片

📊 实验亮点

实验结果表明，RLAAR框架显著降低了LiC的性能衰减（从62.6%提高到75.1%），并提高了校准后的弃权率（从33.5%提高到73.4%）。这些数据表明，RLAAR能够有效地缓解多轮对话中的信息丢失问题，并提高模型在不确定情况下的判断能力。相较于基线模型，RLAAR在多轮对话任务中表现出更强的鲁棒性和可靠性。

🎯 应用场景

RLAAR框架可应用于各种需要多轮对话交互的场景，例如智能客服、虚拟助手、教育辅导等。通过提高模型在多轮对话中的可靠性和准确性，可以提升用户体验，并减少错误信息的传播。该研究对于构建更值得信赖和可靠的大型语言模型具有重要意义，并为未来的多轮对话系统设计提供了新的思路。

📄 摘要（原文）

Large Language Models demonstrate strong capabilities in single-turn instruction following but suffer from Lost-in-Conversation (LiC), a degradation in performance as information is revealed progressively in multi-turn settings. Motivated by the current progress on Reinforcement Learning with Verifiable Rewards (RLVR), we propose Curriculum Reinforcement Learning with Verifiable Accuracy and Abstention Rewards (RLAAR), a framework that encourages models not only to generate correct answers, but also to judge the solvability of questions in the multi-turn conversation setting. Our approach employs a competence-gated curriculum that incrementally increases dialogue difficulty (in terms of instruction shards), stabilizing training while promoting reliability. Using multi-turn, on-policy rollouts and a mixed-reward system, RLAAR teaches models to balance problem-solving with informed abstention, reducing premature answering behaviors that cause LiC. Evaluated on LiC benchmarks, RLAAR significantly mitigates LiC performance decay (62.6% to 75.1%) and improves calibrated abstention rates (33.5% to 73.4%). Together, these results provide a practical recipe for building multi-turn reliable and trustworthy LLMs.

Verifiable Accuracy and Abstention Rewards in Curriculum RL to Alleviate Lost-in-Conversation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理