SARL: Label-Free Reinforcement Learning by Rewarding Reasoning Topology

📄 arXiv: 2603.27977v1 📥 PDF

作者: Yifan Wang, Bolian Li, David Cho, Ruqi Zhang, Fanping Sui, Ananth Grama

分类: cs.AI

发布日期: 2026-03-30


💡 一句话要点

提出SARL:通过奖励推理拓扑结构实现无标签强化学习,提升大语言模型的推理能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 无标签学习 推理模型 复杂网络 拓扑结构

📋 核心要点

  1. 现有强化学习方法依赖于可验证的奖励或标签监督,限制了其在开放领域的应用,且推理轨迹缺乏约束。
  2. SARL通过构建推理图并奖励其小世界拓扑结构,鼓励模型学习局部连贯且全局高效的推理路径,实现无标签强化学习。
  3. 实验表明,SARL在数学和开放式任务上均优于现有方法,且具有更低的KL散度和更高的策略熵,表明训练更稳定。

📝 摘要(中文)

强化学习已成为提升大型推理模型能力的关键,但其成功很大程度上依赖于可验证的奖励或带标签的监督。这限制了它在开放领域的应用,因为在这些领域中,正确性是模糊的且无法验证的。此外,推理轨迹在很大程度上不受约束,并且针对最终答案的优化可能偏向于早期利用而非泛化。本文提出结构感知强化学习(SARL),这是一个无标签框架,它从中间思考步骤构建每个响应的推理图,并奖励其小世界拓扑结构,灵感来自复杂网络和人脑的功能组织。SARL鼓励局部连贯且全局高效的推理轨迹,将监督从目标转移到路径。在Qwen3-4B上的实验表明,SARL优于基于ground truth的强化学习和先前的无标签强化学习基线,在数学任务上,PPO下平均增益为9.1%,GRPO下平均增益为11.6%,在开放式任务上,PPO下平均增益为34.6%,GRPO下平均增益为30.4%。除了良好的性能外,SARL还表现出较低的KL散度、较高的策略熵,表明更稳定和探索性的训练和泛化的推理能力。

🔬 方法详解

问题定义:现有强化学习方法在提升大型语言模型推理能力时,依赖于人工标注的奖励或标签,成本高昂且难以应用于开放领域。此外,模型倾向于直接优化最终答案,忽略了中间推理过程的质量,导致泛化能力不足。

核心思路:SARL的核心思想是,与其直接奖励模型的最终输出,不如奖励模型的推理过程。通过构建“推理图”,并鼓励该图具有“小世界”拓扑结构,即局部连贯且全局高效,从而引导模型学习更合理的推理路径。这种方法将监督从最终结果转移到推理过程本身。

技术框架:SARL框架主要包含以下几个步骤:1) 模型生成推理过程中的中间步骤;2) 基于这些中间步骤构建“推理图”,节点代表中间步骤,边代表步骤之间的关系;3) 计算推理图的拓扑结构特征,例如聚类系数、平均路径长度等;4) 基于这些特征设计奖励函数,奖励具有“小世界”拓扑结构的推理图;5) 使用强化学习算法(如PPO或GRPO)优化模型,使其生成具有更高奖励的推理过程。

关键创新:SARL的关键创新在于:1) 提出了“推理图”的概念,将模型的推理过程可视化为图结构;2) 利用复杂网络理论,将“小世界”拓扑结构作为奖励信号,引导模型学习更合理的推理路径;3) 实现了无标签强化学习,摆脱了对人工标注数据的依赖。

关键设计:推理图的构建方式是关键。论文中可能使用了某种相似度度量来确定中间步骤之间的连接关系。奖励函数的设计也至关重要,需要平衡局部连贯性和全局效率。具体参数设置和网络结构细节在论文中应该有更详细的描述,但摘要中未提及。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

SARL在Qwen3-4B模型上进行了实验,结果表明,在数学任务上,使用PPO算法时,SARL的平均增益为9.1%,使用GRPO算法时,平均增益为11.6%。在开放式任务上,使用PPO算法时,平均增益为34.6%,使用GRPO算法时,平均增益为30.4%。SARL还表现出较低的KL散度和较高的策略熵,表明训练过程更加稳定和探索性更强。

🎯 应用场景

SARL具有广泛的应用前景,可以应用于各种需要复杂推理能力的场景,例如数学问题求解、代码生成、知识图谱推理、对话系统等。通过学习更合理的推理过程,可以提高模型在开放领域的泛化能力和鲁棒性,降低对人工标注数据的依赖,具有重要的实际价值。

📄 摘要(原文)

Reinforcement learning has become central to improving large reasoning models, but its success still relies heavily on verifiable rewards or labeled supervision. This limits its applicability to open ended domains where correctness is ambiguous and cannot be verified. Moreover, reasoning trajectories remain largely unconstrained, and optimization towards final answer can favor early exploitation over generalization. In this work, we ask whether general reasoning ability can be improved by teaching models how to think (the structure of reasoning) rather than what to produce (the outcome of reasoning) and extend traditional RLVR to open ended settings. We introduce structure aware reinforcement learning (SARL), a label free framework that constructs a per response Reasoning Map from intermediate thinking steps and rewards its small world topology, inspired by complex networks and the functional organization of the human brain. SARL encourages reasoning trajectories that are both locally coherent and globally efficient, shifting supervision from destination to path. Our experiments on Qwen3-4B show SARL surpasses ground truth based RL and prior label free RL baselines, achieving the best average gain of 9.1% under PPO and 11.6% under GRPO on math tasks and 34.6% under PPO and 30.4% under GRPO on open ended tasks. Beyond good performance, SARL also exhibits lower KL divergence, higher policy entropy, indicating a more stable and exploratory training and generalized reasoning ability.