Matrix-Space Reinforcement Learning for Reusing Local Transition Geometry

📄 arXiv: 2605.14304v1 📥 PDF

作者: Zuyuan Zhang, Carlee Joe-Wong, Tian Lan

分类: cs.LG, cs.AI

发布日期: 2026-05-14


💡 一句话要点

提出矩阵空间强化学习(MSRL),通过重用局部转移几何结构提升序贯决策中的泛化能力。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 组合泛化 矩阵空间 转移几何 迁移学习

📋 核心要点

  1. 现有强化学习方法在组合泛化方面存在不足,未能充分利用轨迹中的局部转移几何结构和动态信息。
  2. MSRL通过矩阵描述符抽象轨迹片段,捕捉一阶和二阶统计量,支持代数组合和迁移学习。
  3. 实验表明,MSRL在有限预算下实现了更高的目标AUC,优于其他方法,验证了其有效性。

📝 摘要(中文)

序贯决策中的组合泛化需要识别先前经验中哪些部分对新任务仍然有用。现有方法重用技能或预测模型,但通常忽略了丰富的局部转移几何结构和动态特性。我们提出了矩阵空间强化学习(MSRL),这是一种几何抽象,通过正半定矩阵描述符来表示轨迹片段,该描述符聚合了提升后的一步转移的一阶和二阶统计量。这些描述符揭示了共享的隐藏结构,支持抽象矩阵空间中的代数组合,并揭示了迁移的机会。我们证明了该描述符在坐标变换下是良好定义的,对于诱导的低阶加性信号类是完备的,在有效的片段组合下是加性的,并且在可接受的加性描述符中是最小充分的。我们进一步表明,将价值函数建立在轨迹片段矩阵的条件下,可以得到动作价值的一阶平滑近似,从而使源学习的矩阵到价值的映射能够引导新任务中的学习。MSRL与标准无模型和基于模型的方法即插即用兼容,同时障碍过滤拒绝了不合理的组合。在实验中,MSRL实现了0.73的最佳平均有限预算目标AUC,优于从头开始的MSRL(0.65)、TD-MPC-PT+FT(0.63)和TD-MPC(0.57)。

🔬 方法详解

问题定义:论文旨在解决强化学习中组合泛化的问题,即如何有效地利用先前任务的经验来加速新任务的学习。现有方法如技能重用或模型迁移,往往忽略了轨迹中蕴含的丰富的局部转移几何结构和动态信息,导致泛化能力受限。

核心思路:论文的核心思路是将轨迹片段抽象成正半定矩阵描述符,该描述符能够捕捉轨迹片段的一阶和二阶统计信息,从而保留了局部转移几何结构。通过在矩阵空间中进行代数组合,可以实现对不同轨迹片段的有效组合和重用,从而提升泛化能力。

技术框架:MSRL的整体框架包括以下几个主要模块:1) 轨迹片段提取:将轨迹分割成多个片段。2) 矩阵描述符生成:为每个轨迹片段生成正半定矩阵描述符,该描述符聚合了片段内的一步转移统计信息。3) 矩阵空间组合:在矩阵空间中对描述符进行代数组合,以构建新的轨迹表示。4) 价值函数学习:学习一个从矩阵描述符到价值函数的映射,用于评估轨迹的优劣。5) 障碍过滤:过滤掉不合理的轨迹组合,以保证学习的稳定性。

关键创新:MSRL的关键创新在于提出了矩阵描述符这一几何抽象,它能够有效地捕捉轨迹片段的局部转移几何结构,并支持在抽象矩阵空间中进行代数组合。与现有方法相比,MSRL能够更好地利用先前任务的经验,从而提升泛化能力。此外,论文还证明了该描述符的完备性和最小充分性。

关键设计:矩阵描述符通过聚合提升后的一步转移的一阶和二阶统计量来构建。具体来说,对于一个轨迹片段,首先将状态和动作进行提升,然后计算提升后的一步转移的均值和协方差矩阵,并将它们组合成一个正半定矩阵。价值函数的学习可以通过标准的强化学习算法来实现,例如Q-learning或策略梯度方法。障碍过滤可以通过设置阈值来实现,例如,可以过滤掉矩阵描述符的特征值小于某个阈值的轨迹组合。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,MSRL在有限预算下实现了0.73的最佳平均目标AUC,显著优于从头开始的MSRL(0.65)、TD-MPC-PT+FT(0.63)和TD-MPC(0.57)。这表明MSRL能够有效地利用先前任务的经验,并提升在新任务上的性能。

🎯 应用场景

MSRL具有广泛的应用前景,例如机器人导航、游戏AI、自动驾驶等领域。通过重用先前任务的经验,MSRL可以显著减少新任务的学习时间,并提升智能体的泛化能力。该方法还可以应用于多任务学习和终身学习等场景,帮助智能体不断积累知识并适应新的环境。

📄 摘要(原文)

Compositional generalization in sequential decision-making requires identifying which parts of prior rollouts remain useful for new tasks. Existing methods reuse skills or predictive models, but often overlook rich local transition geometry and dynamics. We propose Matrix-Space Reinforcement Learning (MSRL), a geometric abstraction that represents trajectory segments through positive semidefinite matrix descriptors aggregating first- and second-order statistics of lifted one-step transitions. These descriptors expose shared hidden structure, support algebraic composition in an abstract matrix space, and reveal opportunities for transfer. We prove that the descriptor is well defined up to coordinate gauge, complete for the induced low-order additive signal class, additive under valid segment composition, and minimally sufficient among admissible additive descriptors. We further show that conditioning value functions on the trajectory-segment matrix yields a first-order smooth approximation of action values, enabling source-learned matrix-to-value mappings to bootstrap learning in new tasks. MSRL is plug-in compatible with standard model-free and model-based methods, while obstruction filtering rejects implausible compositions. Empirically, MSRL achieves the best average finite-budget target AUC of 0.73, outperforming MSRL from scratch (0.65), TD-MPC-PT+FT (0.63), and TD-MPC (0.57).