Unified Policy Value Decomposition for Rapid Adaptation

📄 arXiv: 2603.17947v1 📥 PDF

作者: Cristiano Capone, Luca Falorsi, Andrea Ciardiello, Luca Manneschi

分类: cs.LG, q-bio.NC

发布日期: 2026-03-18


💡 一句话要点

提出统一策略值分解框架,实现复杂控制系统中的快速适应。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 快速适应 策略值分解 目标嵌入 双线性Actor-Critic

📋 核心要点

  1. 现有强化学习方法在复杂控制系统中难以快速适应新任务,需要大量重新训练。
  2. 论文提出共享低维目标嵌入,通过双线性actor-critic分解,实现策略和值函数的快速适应。
  3. 实验表明,该方法在MuJoCo Ant环境中能有效适应新的运动方向,无需梯度更新。

📝 摘要(中文)

本文提出了一种新的强化学习框架,用于复杂控制系统中的快速适应。该框架通过共享一个低维系数向量(目标嵌入)来连接策略和值函数,该向量捕获任务标识,并允许在无需重新训练表示的情况下立即适应新任务。在预训练期间,通过双线性actor-critic分解联合学习结构化的值基和兼容的策略基。Critic分解为Q = sum_k G_k(g) y_k(s,a),其中G_k(g)是目标条件系数向量,y_k(s,a)是学习到的值基函数。这种乘法门控类似于Layer 5锥体神经元中观察到的增益调制,其中自上而下的输入调节感觉驱动响应的增益而不改变其调整。基于Successor Features,我们将分解扩展到actor,它组合了一组由相同系数G_k(g)加权的原始策略。在测试时,基函数被冻结,G_k(g)通过单次前向传递进行零样本估计,从而无需任何梯度更新即可立即适应新任务。我们在MuJoCo Ant环境中,以多方向运动为目标,训练了一个Soft Actor-Critic智能体,要求智能体在八个方向上行走,这些方向被指定为连续目标向量。双线性结构允许每个策略头专门针对方向的子集,而共享系数层可以跨方向泛化,并通过在目标嵌入空间中进行插值来适应新方向。结果表明,共享的低维目标嵌入为高维控制中的快速、结构化适应提供了一种通用机制,并突出了复杂强化学习系统中有效迁移的潜在生物学合理性原则。

🔬 方法详解

问题定义:现有强化学习方法在面对复杂控制系统中的新任务时,通常需要大量的重新训练,这限制了它们在实际应用中的效率。尤其是在任务空间连续变化的情况下,如何快速适应并泛化到未见过的任务是一个重要的挑战。现有方法难以在表示学习和策略学习之间建立有效的联系,导致适应性差。

核心思路:论文的核心思路是将策略和值函数分解为基函数的线性组合,并使用一个共享的低维目标嵌入向量来调节这些基函数的权重。通过这种方式,任务的身份信息被压缩到一个低维空间中,从而可以快速地适应新的任务,而无需重新训练整个网络。这种分解方式借鉴了神经科学中增益调制的概念,即顶层输入可以调节底层感觉驱动响应的增益,而无需改变其调谐。

技术框架:该框架基于actor-critic方法,并采用双线性分解。在预训练阶段,联合学习值基函数和策略基函数。Critic网络将Q值分解为目标条件系数向量G_k(g)和值基函数y_k(s,a)的乘积之和。Actor网络也采用类似的分解方式,将策略分解为一组原始策略的加权和,权重由相同的目标条件系数向量G_k(g)决定。在测试阶段,基函数被冻结,目标条件系数向量G_k(g)通过单次前向传递进行估计,从而实现零样本适应。

关键创新:该方法最重要的技术创新点在于统一了策略和值函数的分解,并使用共享的低维目标嵌入向量来调节它们。这种分解方式使得策略和值函数能够共享任务信息,从而实现快速适应。与传统的元学习方法相比,该方法无需进行梯度更新,因此更加高效。此外,该方法借鉴了神经科学中的增益调制机制,具有一定的生物学合理性。

关键设计:论文使用Soft Actor-Critic (SAC) 作为基础的强化学习算法。目标嵌入向量G_k(g)的设计至关重要,它需要能够有效地捕获任务的身份信息。论文中使用了连续的目标向量来表示不同的运动方向。损失函数的设计需要保证值基函数和策略基函数能够有效地学习,并且目标嵌入向量能够准确地表示任务信息。网络结构的设计需要能够支持双线性分解,并且能够高效地进行前向传递。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在MuJoCo Ant环境中,能够使智能体快速适应新的运动方向,而无需任何梯度更新。智能体能够通过在目标嵌入空间中进行插值,泛化到未见过的运动方向。该方法在适应速度和泛化能力方面都优于传统的强化学习方法。

🎯 应用场景

该研究成果可应用于机器人控制、自动驾驶、游戏AI等领域。例如,可以训练机器人快速适应不同的地形环境或任务目标,提高机器人的自主性和适应性。在自动驾驶领域,可以使车辆快速适应不同的驾驶场景和交通状况。在游戏AI领域,可以使AI角色快速学习新的游戏规则和策略。

📄 摘要(原文)

Rapid adaptation in complex control systems remains a central challenge in reinforcement learning. We introduce a framework in which policy and value functions share a low-dimensional coefficient vector - a goal embedding - that captures task identity and enables immediate adaptation to novel tasks without retraining representations. During pretraining, we jointly learn structured value bases and compatible policy bases through a bilinear actor-critic decomposition. The critic factorizes as Q = sum_k G_k(g) y_k(s,a), where G_k(g) is a goal-conditioned coefficient vector and y_k(s,a) are learned value basis functions. This multiplicative gating - where a context signal scales a set of state-dependent bases - is reminiscent of gain modulation observed in Layer 5 pyramidal neurons, where top-down inputs modulate the gain of sensory-driven responses without altering their tuning. Building on Successor Features, we extend the decomposition to the actor, which composes a set of primitive policies weighted by the same coefficients G_k(g). At test time the bases are frozen and G_k(g) is estimated zero-shot via a single forward pass, enabling immediate adaptation to novel tasks without any gradient update. We train a Soft Actor-Critic agent on the MuJoCo Ant environment under a multi-directional locomotion objective, requiring the agent to walk in eight directions specified as continuous goal vectors. The bilinear structure allows each policy head to specialize to a subset of directions, while the shared coefficient layer generalizes across them, accommodating novel directions by interpolating in goal embedding space. Our results suggest that shared low-dimensional goal embeddings offer a general mechanism for rapid, structured adaptation in high-dimensional control, and highlight a potentially biologically plausible principle for efficient transfer in complex reinforcement learning systems.