AdaptR1: Reinforcement Learning Based Adaptive Interleaved Thinking in Multi-hop Question Answering
作者: Yuxin Wang, Jiahao Lu, Qifeng Wu, Shicheng Fang, Chuanyuan Tan, Yining Zheng, Xuanjing Huang, Xipeng Qiu
分类: cs.CL
发布日期: 2026-05-29
💡 一句话要点
AdaptR1:基于强化学习的多跳问答自适应交错推理
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多跳问答 强化学习 自适应推理 思维链 大型语言模型
📋 核心要点
- 现有CoT方法在多跳问答中存在“过度思考”问题,即对简单问题产生过长的推理链,造成计算浪费。
- AdaptR1提出了一种基于强化学习的自适应交错推理框架,在每一步动态分配推理预算,避免不必要的推理。
- 实验表明,AdaptR1在保持甚至提升性能的同时,显著减少了推理token的使用,尤其是在HotpotQA数据集上。
📝 摘要(中文)
大型语言模型(LLMs)通过思维链(CoT)提示在复杂推理任务中取得了显著的性能。然而,这种方法常常导致“过度思考”,即模型为简单的查询生成不必要的长推理轨迹,并产生可避免的推理成本。虽然最近的工作已经探索了自适应推理,但现有方法通常只在查询级别做出关于是否推理的单一决策。这忽略了多步任务的动态特性,即对显式推理的需求在中间阶段各不相同。为了解决这个限制,我们引入了AdaptR1,一个基于强化学习(RL)的框架,用于多跳问答(QA)中的自适应交错思考。与之前需要监督微调(SFT)进行冷启动初始化的方法不同,AdaptR1使用完全基于RL的策略,通过质量门控效率奖励来动态地在每个步骤分配推理预算。在Graph-R1设置下,AdaptR1平均减少了69.71%的思考token,在HotpotQA上减少了90.35%,同时保持了与标准基线相当或更好的性能。此外,我们的分析表明,多跳推理中的过度思考并非均匀分布,而是主要发生在初始规划阶段,突出了逐步自适应预算分配的有效性。
🔬 方法详解
问题定义:论文旨在解决多跳问答中,大型语言模型在推理过程中存在的“过度思考”问题。现有方法通常采用固定的推理步数,或者仅在查询级别决定是否进行推理,无法根据推理过程的实际需求动态调整推理预算,导致计算资源的浪费。
核心思路:论文的核心思路是利用强化学习,训练一个智能体,使其能够在多跳推理的每一步,根据当前状态动态地决定是否需要进行推理。通过奖励机制鼓励智能体在保证推理质量的前提下,尽可能减少推理步骤,从而实现自适应的推理。
技术框架:AdaptR1框架主要包含以下几个模块:1) 环境:多跳问答任务;2) 智能体:负责决定每一步是否进行推理;3) 奖励函数:用于评估智能体的行为,包括质量奖励和效率奖励。整体流程是,智能体观察当前状态(例如,当前问题和已有的推理步骤),然后决定是否进行推理。如果进行推理,则生成推理步骤,并更新状态。环境根据推理结果和效率给予智能体奖励,智能体根据奖励更新策略。
关键创新:AdaptR1的关键创新在于:1) 提出了基于强化学习的自适应交错推理框架,能够动态地在每一步分配推理预算;2) 设计了质量门控效率奖励,鼓励智能体在保证推理质量的前提下,尽可能减少推理步骤;3) 不需要监督微调进行冷启动,而是完全基于强化学习进行训练。
关键设计:AdaptR1使用PPO算法进行训练。质量奖励基于推理结果的正确性,效率奖励基于推理token的数量。质量门控是指,只有当推理结果达到一定质量阈值时,效率奖励才会生效,从而避免智能体为了减少推理步骤而牺牲推理质量。具体来说,奖励函数可以表示为:R = QualityReward + gate(QualityReward > threshold) * EfficiencyReward。threshold是一个超参数,用于控制质量门控的严格程度。
🖼️ 关键图片
📊 实验亮点
AdaptR1在Graph-R1设置下,相较于标准基线,平均减少了69.71%的思考token。在HotpotQA数据集上,思考token减少了90.35%,同时保持了与标准基线相当或更好的性能。分析表明,过度思考主要发生在初始规划阶段,证明了逐步自适应预算分配的有效性。
🎯 应用场景
AdaptR1技术可应用于各种需要多步推理的自然语言处理任务,例如知识图谱问答、复杂文档理解和智能对话系统。通过减少不必要的推理步骤,可以显著降低计算成本,提高推理效率,使得大型语言模型能够更高效地处理复杂问题,并部署在资源受限的环境中。
📄 摘要(原文)
Large Language Models (LLMs) have achieved remarkable performance in complex reasoning tasks through Chain-of-Thought (CoT) prompting. However, this approach often leads to ``over-thinking,'' where models generate unnecessarily long reasoning traces for simple queries and incur avoidable inference cost. While recent work has explored adaptive reasoning, existing methods typically make a single query-level decision about whether to reason. This overlooks the dynamic nature of multi-step tasks, where the need for explicit reasoning varies across intermediate stages. To address this limitation, we introduce AdaptR1, a Reinforcement Learning (RL) based framework for adaptive interleaved thinking in multi-hop Question Answering (QA). Unlike previous approaches that require Supervised Fine-Tuning (SFT) for cold-start initialization, AdaptR1 uses a fully RL-based strategy with a quality-gated efficiency reward to dynamically allocate reasoning budgets at each step. Under the Graph-R1 setting, AdaptR1 reduces average think tokens by 69.71\%, with a 90.35\% reduction on HotpotQA, while maintaining performance comparable to or better than standard baselines. Furthermore, our analysis reveals that overthinking in multi-hop reasoning is not uniformly distributed but occurs predominantly during the initial planning stages, highlighting the effectiveness of step-wise adaptive budget allocation.