SAVGO: Learning State-Action Value Geometry with Cosine Similarity for Continuous Control

📄 arXiv: 2605.00787v1 📥 PDF

作者: Stavros Orfanoudakis, Pedro P. Vergara

分类: cs.LG

发布日期: 2026-05-01

备注: Reinforcement Learning


💡 一句话要点

SAVGO:基于余弦相似度的状态-动作价值几何学习,用于连续控制

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 连续控制 价值几何 余弦相似度 策略优化

📋 核心要点

  1. 现有强化学习方法在动作空间中直接利用表示和相似性学习来指导策略更新方面存在不足。
  2. SAVGO通过学习状态-动作价值几何,利用余弦相似度将相似的动作价值对映射到相近的方向,从而指导策略更新。
  3. 在MuJoCo基准测试中,SAVGO在具有挑战性的高维任务上优于现有方法,验证了价值几何学习和相似性策略更新的有效性。

📝 摘要(中文)

本文提出了一种几何感知的强化学习算法——状态-动作价值几何优化(SAVGO),它将基于价值的相似性直接融入到动作空间的策略更新中。SAVGO学习一个联合状态-动作嵌入空间,在该空间中,具有相似动作-价值估计的样本对表现出较高的余弦相似度,而不同的样本对则映射到不同的方向。这种学习到的几何结构使得能够在每次更新时生成候选动作上的相似性核,从而引导策略改进直接朝着超出局部基于梯度的更新的更高价值区域。因此,表示学习、价值估计和策略优化被统一在一个几何一致的目标中,同时保留了离线Actor-Critic训练的可扩展性。该方法在标准的MuJoCo连续控制基准上进行了评估,证明了在具有挑战性的高维任务中优于强大的基线方法。并通过消融研究分析了价值几何学习和基于相似性的策略更新的贡献。

🔬 方法详解

问题定义:在连续控制任务中,如何更有效地利用状态-动作价值信息来指导策略更新,提高样本效率是一个关键问题。现有的强化学习方法,特别是基于梯度的方法,可能陷入局部最优,难以探索到更高价值的区域。此外,表示学习和相似性学习在强化学习中的应用,尤其是在动作空间中直接指导策略更新方面,还不够充分。

核心思路:SAVGO的核心思路是学习一个状态-动作的联合嵌入空间,使得具有相似价值的动作在嵌入空间中具有较高的余弦相似度。通过这种方式,可以将价值信息转化为几何信息,从而利用相似性核来指导策略更新,使其能够探索到更高价值的区域,避免陷入局部最优。

技术框架:SAVGO采用Actor-Critic框架,包含以下主要模块:1) 状态-动作嵌入模块:将状态和动作映射到联合嵌入空间。2) 价值估计模块:估计状态-动作对的价值。3) 相似性核生成模块:基于嵌入空间中的余弦相似度生成相似性核。4) 策略更新模块:利用相似性核指导策略更新,选择更高价值的动作。整体流程是,首先通过状态-动作嵌入模块和价值估计模块学习状态-动作的价值几何,然后利用相似性核生成模块生成相似性核,最后利用策略更新模块更新策略。

关键创新:SAVGO的关键创新在于将状态-动作价值信息转化为几何信息,并利用相似性核来指导策略更新。与传统的基于梯度的方法不同,SAVGO能够利用全局的价值信息来指导策略更新,从而避免陷入局部最优。此外,SAVGO将表示学习、价值估计和策略优化统一在一个几何一致的目标中,使得各个模块能够协同工作。

关键设计:SAVGO的关键设计包括:1) 使用余弦相似度作为相似性度量,因为它能够捕捉向量之间的方向关系,而不仅仅是距离关系。2) 使用相似性核来对候选动作进行加权,从而选择更高价值的动作。3) 设计了一个几何一致的损失函数,用于同时优化状态-动作嵌入模块和价值估计模块。具体的损失函数包括价值估计的均方误差损失和余弦相似度损失,用于鼓励相似价值的动作具有较高的余弦相似度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SAVGO在MuJoCo连续控制基准测试中取得了显著的性能提升。在多个具有挑战性的高维任务中,SAVGO优于SAC、TD3等主流的强化学习算法。消融实验表明,价值几何学习和基于相似性的策略更新都对性能提升有重要贡献。例如,在HalfCheetah任务中,SAVGO的平均奖励比SAC提高了约20%。

🎯 应用场景

SAVGO算法在机器人控制、自动驾驶、游戏AI等领域具有广泛的应用前景。通过学习状态-动作价值几何,SAVGO能够更有效地指导策略学习,提高智能体在复杂环境中的表现。例如,在机器人控制中,SAVGO可以帮助机器人学习更加高效的运动策略,从而完成复杂的任务。在自动驾驶中,SAVGO可以帮助车辆学习更加安全的驾驶策略,从而提高驾驶安全性。

📄 摘要(原文)

While representation and similarity learning have improved the sample efficiency of Reinforcement Learning (RL), they are rarely used to shape policy updates directly in the action space. To bridge this gap, a geometry-aware RL algorithm that explicitly incorporates value-based similarity into the policy update, State-Action Value Geometry Optimization (SAVGO), is proposed. In detail, SAVGO learns a joint state-action embedding space in which pairs with similar action-value estimates exhibit high cosine similarity, while dissimilar pairs are mapped to distinct directions. This learned geometry enables the generation of a similarity kernel over candidate actions sampled at each update, allowing policy improvement to be guided directly toward higher-value regions beyond local gradient-based updates. As a result, representation learning, value estimation, and policy optimization are unified within a single geometry-consistent objective, while preserving the scalability of off-policy actor-critic training. The proposed method is evaluated on standard MuJoCo continuous-control benchmarks, demonstrating improvements over strong baselines on challenging high-dimensional tasks. Ablation studies are done to analyze the contributions of value-geometry learning and similarity-based policy updates.