A Primer on SO(3) Action Representations in Deep Reinforcement Learning
作者: Martin Schuck, Sherif Samy, Angela P. Schoellig
分类: cs.RO, cs.AI
发布日期: 2025-10-13
💡 一句话要点
研究SO(3)作用表示对深度强化学习的影响,提出基于局部坐标系切向量的动作表示方法。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: SO(3)表示 深度强化学习 机器人控制 动作空间 连续控制
📋 核心要点
- 现有SO(3)表示方法(如欧拉角、四元数)在强化学习中存在约束和失效模式,影响策略学习。
- 论文核心思想是研究不同SO(3)动作表示对强化学习算法的影响,并提出更有效的表示方法。
- 实验结果表明,在局部坐标系中将动作表示为切向量,在多种机器人任务和算法中表现更稳定可靠。
📝 摘要(中文)
许多机器人控制任务需要策略作用于方向,但SO(3)的几何特性使其变得不简单。由于SO(3)不存在全局、平滑、最小的参数化表示,因此常见的表示方法,如欧拉角、四元数、旋转矩阵和李代数坐标,都引入了不同的约束和失效模式。虽然这些权衡在监督学习中得到了充分研究,但它们对强化学习中动作的影响仍不清楚。我们系统地评估了SO(3)动作表示在三种标准连续控制算法(PPO、SAC和TD3)下的表现,包括稠密和稀疏奖励。我们比较了表示如何塑造探索,如何与熵正则化相互作用,以及如何通过实证研究影响训练稳定性,并分析了不同投影对从欧几里德网络输出中获得有效旋转的影响。在一系列机器人基准测试中,我们量化了这些选择的实际影响,并提炼出简单、可立即实现的指南,用于选择和使用旋转动作。我们的结果表明,表示诱导的几何结构强烈影响探索和优化,并表明在局部坐标系中将动作表示为切向量可以产生最可靠的算法结果。
🔬 方法详解
问题定义:论文旨在解决机器人强化学习中,由于SO(3)群的特殊几何性质,导致使用传统旋转表示方法(如欧拉角、四元数等)作为动作空间时,训练不稳定、探索效率低下的问题。现有方法的痛点在于,这些表示方法要么存在奇异性,要么参数冗余,要么无法保证旋转矩阵的有效性,从而影响强化学习算法的性能。
核心思路:论文的核心解决思路是系统性地评估不同SO(3)动作表示方法在强化学习中的表现,并找到一种更适合强化学习的表示方法。作者认为,合适的表示方法应该能够有效地引导探索,与熵正则化兼容,并保证训练的稳定性。通过实验对比,作者发现将动作表示为局部坐标系下的切向量,能够更好地满足这些要求。
技术框架:论文采用的整体框架是:首先,选择三种常用的连续控制强化学习算法(PPO、SAC、TD3)作为基准算法;然后,针对每种算法,分别使用不同的SO(3)动作表示方法进行训练和测试;最后,通过对比实验结果,分析不同表示方法对算法性能的影响。实验中使用了多种机器人控制任务作为benchmark,包括稠密奖励和稀疏奖励两种情况。
关键创新:论文最重要的技术创新点在于,通过实验证明了在局部坐标系下使用切向量表示SO(3)动作的有效性。这种表示方法避免了传统表示方法的奇异性和冗余性问题,能够更有效地引导探索,并提高训练的稳定性。此外,论文还系统地分析了不同SO(3)表示方法与强化学习算法之间的相互作用,为选择合适的动作表示方法提供了指导。
关键设计:论文的关键设计包括:1) 针对不同的SO(3)表示方法,设计了相应的投影函数,以保证网络输出的有效性;2) 使用熵正则化来鼓励探索,并研究了不同表示方法与熵正则化之间的相互作用;3) 在多种机器人控制任务中进行实验,以验证所提出方法的泛化能力。具体来说,对于切向量表示,网络输出的是局部坐标系下的角速度,然后通过指数映射将其转换为旋转矩阵。
📊 实验亮点
实验结果表明,在多种机器人控制任务中,使用局部坐标系下的切向量表示SO(3)动作,能够显著提高强化学习算法的性能。例如,在使用PPO算法时,相比于其他表示方法,切向量表示能够更快地收敛,并获得更高的奖励。此外,切向量表示在稀疏奖励任务中也表现出更好的鲁棒性,能够有效地引导探索。
🎯 应用场景
该研究成果可广泛应用于机器人控制领域,尤其是在需要精确控制机器人姿态的任务中,例如无人机控制、机械臂操作、以及其他需要与三维环境交互的机器人系统。选择合适的SO(3)动作表示可以提高控制精度、稳定性和学习效率,从而提升机器人系统的整体性能。
📄 摘要(原文)
Many robotic control tasks require policies to act on orientations, yet the geometry of SO(3) makes this nontrivial. Because SO(3) admits no global, smooth, minimal parameterization, common representations such as Euler angles, quaternions, rotation matrices, and Lie algebra coordinates introduce distinct constraints and failure modes. While these trade-offs are well studied for supervised learning, their implications for actions in reinforcement learning remain unclear. We systematically evaluate SO(3) action representations across three standard continuous control algorithms, PPO, SAC, and TD3, under dense and sparse rewards. We compare how representations shape exploration, interact with entropy regularization, and affect training stability through empirical studies and analyze the implications of different projections for obtaining valid rotations from Euclidean network outputs. Across a suite of robotics benchmarks, we quantify the practical impact of these choices and distill simple, implementation-ready guidelines for selecting and using rotation actions. Our results highlight that representation-induced geometry strongly influences exploration and optimization and show that representing actions as tangent vectors in the local frame yields the most reliable results across algorithms.