AdaptR1: Reinforcement Learning Based Adaptive Interleaved Thinking in Multi-hop Question Answering

作者: Yuxin Wang, Jiahao Lu, Qifeng Wu, Shicheng Fang, Chuanyuan Tan, Yining Zheng, Xuanjing Huang, Xipeng Qiu

分类: cs.CL

发布日期: 2026-05-29

💡 一句话要点

AdaptR1：基于强化学习的多跳问答自适应交错推理

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多跳问答 强化学习 自适应推理 思维链 大型语言模型

📋 核心要点

现有CoT方法在多跳问答中存在“过度思考”问题，即对简单问题产生过长的推理链，造成计算浪费。
AdaptR1提出了一种基于强化学习的自适应交错推理框架，在每一步动态分配推理预算，避免不必要的推理。
实验表明，AdaptR1在保持甚至提升性能的同时，显著减少了推理token的使用，尤其是在HotpotQA数据集上。

📝 摘要（中文）

大型语言模型(LLMs)通过思维链(CoT)提示在复杂推理任务中取得了显著的性能。然而，这种方法常常导致“过度思考”，即模型为简单的查询生成不必要的长推理轨迹，并产生可避免的推理成本。虽然最近的工作已经探索了自适应推理，但现有方法通常只在查询级别做出关于是否推理的单一决策。这忽略了多步任务的动态特性，即对显式推理的需求在中间阶段各不相同。为了解决这个限制，我们引入了AdaptR1，一个基于强化学习(RL)的框架，用于多跳问答(QA)中的自适应交错思考。与之前需要监督微调(SFT)进行冷启动初始化的方法不同，AdaptR1使用完全基于RL的策略，通过质量门控效率奖励来动态地在每个步骤分配推理预算。在Graph-R1设置下，AdaptR1平均减少了69.71%的思考token，在HotpotQA上减少了90.35%，同时保持了与标准基线相当或更好的性能。此外，我们的分析表明，多跳推理中的过度思考并非均匀分布，而是主要发生在初始规划阶段，突出了逐步自适应预算分配的有效性。

🔬 方法详解

问题定义：论文旨在解决多跳问答中，大型语言模型在推理过程中存在的“过度思考”问题。现有方法通常采用固定的推理步数，或者仅在查询级别决定是否进行推理，无法根据推理过程的实际需求动态调整推理预算，导致计算资源的浪费。

核心思路：论文的核心思路是利用强化学习，训练一个智能体，使其能够在多跳推理的每一步，根据当前状态动态地决定是否需要进行推理。通过奖励机制鼓励智能体在保证推理质量的前提下，尽可能减少推理步骤，从而实现自适应的推理。

技术框架：AdaptR1框架主要包含以下几个模块：1) 环境：多跳问答任务；2) 智能体：负责决定每一步是否进行推理；3) 奖励函数：用于评估智能体的行为，包括质量奖励和效率奖励。整体流程是，智能体观察当前状态（例如，当前问题和已有的推理步骤），然后决定是否进行推理。如果进行推理，则生成推理步骤，并更新状态。环境根据推理结果和效率给予智能体奖励，智能体根据奖励更新策略。

关键创新：AdaptR1的关键创新在于：1) 提出了基于强化学习的自适应交错推理框架，能够动态地在每一步分配推理预算；2) 设计了质量门控效率奖励，鼓励智能体在保证推理质量的前提下，尽可能减少推理步骤；3) 不需要监督微调进行冷启动，而是完全基于强化学习进行训练。

关键设计：AdaptR1使用PPO算法进行训练。质量奖励基于推理结果的正确性，效率奖励基于推理token的数量。质量门控是指，只有当推理结果达到一定质量阈值时，效率奖励才会生效，从而避免智能体为了减少推理步骤而牺牲推理质量。具体来说，奖励函数可以表示为：R = QualityReward + gate(QualityReward > threshold) * EfficiencyReward。threshold是一个超参数，用于控制质量门控的严格程度。

🖼️ 关键图片

📊 实验亮点

AdaptR1在Graph-R1设置下，相较于标准基线，平均减少了69.71%的思考token。在HotpotQA数据集上，思考token减少了90.35%，同时保持了与标准基线相当或更好的性能。分析表明，过度思考主要发生在初始规划阶段，证明了逐步自适应预算分配的有效性。

🎯 应用场景

AdaptR1技术可应用于各种需要多步推理的自然语言处理任务，例如知识图谱问答、复杂文档理解和智能对话系统。通过减少不必要的推理步骤，可以显著降低计算成本，提高推理效率，使得大型语言模型能够更高效地处理复杂问题，并部署在资源受限的环境中。

📄 摘要（原文）

Large Language Models (LLMs) have achieved remarkable performance in complex reasoning tasks through Chain-of-Thought (CoT) prompting. However, this approach often leads to ``over-thinking,'' where models generate unnecessarily long reasoning traces for simple queries and incur avoidable inference cost. While recent work has explored adaptive reasoning, existing methods typically make a single query-level decision about whether to reason. This overlooks the dynamic nature of multi-step tasks, where the need for explicit reasoning varies across intermediate stages. To address this limitation, we introduce AdaptR1, a Reinforcement Learning (RL) based framework for adaptive interleaved thinking in multi-hop Question Answering (QA). Unlike previous approaches that require Supervised Fine-Tuning (SFT) for cold-start initialization, AdaptR1 uses a fully RL-based strategy with a quality-gated efficiency reward to dynamically allocate reasoning budgets at each step. Under the Graph-R1 setting, AdaptR1 reduces average think tokens by 69.71\%, with a 90.35\% reduction on HotpotQA, while maintaining performance comparable to or better than standard baselines. Furthermore, our analysis reveals that overthinking in multi-hop reasoning is not uniformly distributed but occurs predominantly during the initial planning stages, highlighting the effectiveness of step-wise adaptive budget allocation.

AdaptR1: Reinforcement Learning Based Adaptive Interleaved Thinking in Multi-hop Question Answering

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理