From Atomic to Composite: Reinforcement Learning Enables Generalization in Complementary Reasoning

📄 arXiv: 2512.01970v2 📥 PDF

作者: Sitao Cheng, Xunjian Yin, Ruiwen Zhou, Yuxuan Li, Xinyi Wang, Liangming Pan, William Yang Wang, Victor Zhong

分类: cs.AI, cs.CL

发布日期: 2025-12-01 (更新: 2025-12-02)

备注: Work in Progress. Code and data will be available at https://github.com/sitaocheng/from_atomic_to_composite


💡 一句话要点

强化学习通过原子技能组合实现互补推理的泛化能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 互补推理 泛化能力 原子技能 监督微调

📋 核心要点

  1. 现有方法在互补推理任务中泛化能力不足,尤其是在零样本场景下,模型容易依赖记忆而非真正推理。
  2. 论文提出解耦原子技能训练,先通过监督微调(SFT)学习参数推理和上下文推理,再用强化学习(RL)合成复杂策略。
  3. 实验表明,SFT模型在分布外泛化能力差,而经过原子技能训练后,RL能够有效合成复杂推理策略,提升泛化性能。

📝 摘要(中文)

本文探讨了强化学习(RL)如何提升推理能力,是促进新技能的合成还是仅仅增强现有行为。研究通过互补推理任务,该任务需要整合内部参数知识和外部上下文信息,来考察这个问题。使用人类传记的合成数据集,将互补推理分解为两个原子技能:参数推理(依赖内部知识)和上下文推理(依赖外部信息)。通过独立同分布(I.I.D.)、组合(Composition)和零样本(Zero-shot)三种难度级别评估泛化能力。结果表明,监督微调(SFT)足以实现同分布性能,但在分布外泛化方面表现不佳,尤其是在关系组合新颖的零样本设置中。发现了SFT泛化悖论:仅在复合任务上进行监督的模型在同分布精度上接近完美,但在分布外泛化上崩溃,表明它们依赖于路径捷径的死记硬背。相反,RL充当推理合成器。然而,存在一个严格的原子技能前提:只有当基础模型首先通过SFT掌握了独立的原子技能(参数和上下文)时,RL才能合成这些复杂的策略。这些发现挑战了RL仅仅是概率放大器的观点,表明在有足够的原子技能基础的情况下,RL可以从学习到的原语中主动合成复杂的推理策略,而无需对此类复杂策略进行显式监督。这表明,解耦的原子训练后进行RL为复杂推理任务的泛化提供了一条可扩展的路径。

🔬 方法详解

问题定义:论文旨在解决互补推理任务中的泛化问题。现有方法,特别是监督微调(SFT),在处理分布外(O.O.D.)数据时表现不佳,尤其是在零样本场景下,模型倾向于记忆训练数据中的模式,而不是学习通用的推理规则。这导致模型在面对新的关系组合时无法有效推理。

核心思路:论文的核心思路是将复杂的互补推理任务分解为两个原子技能:参数推理和上下文推理。通过分别训练模型掌握这两个原子技能,然后利用强化学习(RL)来合成这两个技能,从而实现更强的泛化能力。这种方法旨在避免模型直接学习复杂的推理路径,而是通过学习基本技能的组合来解决问题。

技术框架:整体框架包含两个主要阶段:1) 原子技能训练阶段:使用监督微调(SFT)分别训练模型掌握参数推理和上下文推理这两个原子技能。2) 强化学习合成阶段:使用RL来训练模型如何有效地组合这两个原子技能,以解决更复杂的互补推理任务。框架的关键在于解耦原子技能的训练,并利用RL来学习技能的组合策略。

关键创新:最重要的技术创新点在于提出了一种解耦原子技能训练和强化学习合成的框架,用于解决复杂推理任务的泛化问题。与直接在复合任务上进行监督学习的方法相比,该方法能够更好地学习通用的推理规则,并提高模型在分布外数据上的泛化能力。论文揭示了SFT泛化悖论,并证明了RL在推理合成中的作用。

关键设计:在原子技能训练阶段,使用标准的监督学习方法,例如交叉熵损失函数,来训练模型。在强化学习合成阶段,可以使用各种RL算法,例如策略梯度算法或Q-learning算法,来训练模型学习技能的组合策略。奖励函数的设计至关重要,需要能够激励模型有效地组合原子技能,以解决互补推理任务。具体参数设置和网络结构的选择取决于具体的任务和数据集。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SFT模型在同分布数据上表现良好,但在分布外数据上泛化能力差。而经过原子技能训练后,RL模型在零样本设置下取得了显著的性能提升,表明RL能够有效地合成原子技能,从而提高模型的泛化能力。具体性能数据需要在论文中查找。

🎯 应用场景

该研究成果可应用于需要结合内部知识和外部信息的复杂推理任务,例如知识图谱推理、问答系统、对话系统等。通过解耦原子技能训练和强化学习合成,可以提高模型在这些任务中的泛化能力和鲁棒性,使其能够更好地处理真实世界中的复杂场景。

📄 摘要(原文)

The mechanism by which RL contributes to reasoning capabilities-whether it incentivizes the synthesis of new skills or merely amplifies existing behaviors-remains a subject of intense debate. In this work, we investigate this question through the lens of Complementary Reasoning, a complex task that requires integrating internal parametric knowledge with external contextual information. Using a controlled synthetic dataset of human biographies, we strictly decouple this ability into two atomic skills: Parametric Reasoning (relying on internal knowledge) and Contextual Reasoning (depending on external information). To rigorously assess capability boundaries, we evaluate generalization across three distinct levels of difficulty: I.I.D., Composition, and Zero-shot settings. We find that while SFT is sufficient for in-distribution performance, it struggles with O.O.D. generalization, particularly in Zero-shot settings where relational combinations are novel. Crucially, we identify the SFT Generalization Paradox: Models supervised solely on the composite task achieve near-perfect in-distribution accuracy but collapse on out-of-distribution generalization, indicating their reliance on rote memorization of path shortcuts. In contrast, we find that RL acts as a reasoning synthesizer rather than a probability amplifier. However, we uncover a strict atomic prerequisite: RL can only synthesize these complex strategies if the base model has first mastered the independent atomic skills (Parametric and Contextual) via SFT. These findings challenge the view of RL as a mere amplifier, suggesting that given sufficient atomic foundations, RL can actively synthesize complex reasoning strategies from learned primitives without explicit supervision on such complex strategies. This indicates that decoupled atomic training followed by RL offers a scalable path to generalization for complex reasoning tasks.