Symphony: A Heuristic Normalized Calibrated Advantage Actor and Critic Algorithm in application for Humanoid Robots

📄 arXiv: 2512.10477v6 📥 PDF

作者: Timur Ishuov, Michele Folgheraiter, Madi Nurmanov, Goncalo Gordo, Richárd Farkas, József Dombi

分类: cs.RO, cs.NE

发布日期: 2025-12-11 (更新: 2026-01-25)

备注: https://github.com/SuspensionRailway/symphony


💡 一句话要点

提出Symphony算法,用于提升人形机器人从零开始学习的样本效率与安全性。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 人形机器人 强化学习 Actor-Critic算法 样本效率 动作安全性

📋 核心要点

  1. 现有机器人强化学习方法通常需要数百万步的训练,效率低下,难以满足人形机器人快速学习的需求。
  2. Symphony算法通过“襁褓”正则化约束动作强度,限制参数噪声,并采用衰减回放缓冲区,保证训练过程的安全性和稳定性。
  3. Symphony算法在人形机器人上进行了实验,验证了其在样本效率、样本邻近性和动作安全性方面的有效性。

📝 摘要(中文)

本文提出了一种名为Symphony的算法,即过渡策略确定性Actor-Critic算法(Symphony, Transitional-policy Deterministic Actor and Critic algorithm)。该算法融合了多种思想,旨在提高人形机器人从零开始训练的样本效率、样本邻近性和动作安全性。文章认为,持续增加高斯噪声而不进行适当平滑对电机和齿轮箱有害。与随机算法相比,Symphony算法设置了有限的参数噪声,并降低了动作强度,从而在保证安全的前提下增加了熵。当动作需要更极端的值时,动作会超出较弱的噪声范围。此外,文章还使用了衰减回放缓冲区(Fading Replay Buffer),通过双曲正切函数调整批量采样概率,包含近期记忆和长期记忆轨迹。衰减回放缓冲区允许使用时间优势(Temporal Advantage),从而在一次传递中更新Actor和Critic,并将它们组合成一个对象,用一行代码实现它们的损失。

🔬 方法详解

问题定义:现有强化学习算法在训练人形机器人时,通常需要大量的训练样本,导致训练时间过长,效率低下。此外,直接从零开始训练人形机器人,容易产生不稳定的动作,对机器人自身和周围环境造成潜在的危险。因此,需要一种能够提高样本效率和动作安全性的强化学习算法,使人形机器人能够快速、安全地学习复杂的运动技能。

核心思路:Symphony算法的核心思路是通过一系列策略来约束和引导机器人的学习过程,使其在保证安全性的前提下,快速探索和学习有效的动作。具体来说,算法通过“襁褓”正则化来限制动作的强度,防止产生过大的动作,从而保证安全性。同时,算法采用衰减回放缓冲区,优先选择近期样本进行训练,提高样本效率。此外,算法还利用时间优势来加速Actor和Critic网络的更新。

技术框架:Symphony算法是一种Actor-Critic算法,其整体框架包括以下几个主要模块:Actor网络、Critic网络、回放缓冲区和优化器。Actor网络负责生成动作,Critic网络负责评估动作的价值。回放缓冲区用于存储经验样本,优化器用于更新Actor和Critic网络的参数。Symphony算法的关键在于其对回放缓冲区的改进和对动作的约束策略。

关键创新:Symphony算法的关键创新在于以下几个方面:1) “襁褓”正则化:通过惩罚动作强度来约束动作空间,保证动作的安全性。2) 衰减回放缓冲区:通过调整采样概率,优先选择近期样本进行训练,提高样本效率。3) 时间优势:利用时间差分误差来加速Actor和Critic网络的更新。

关键设计:Symphony算法的关键设计包括:1) “襁褓”正则化的具体实现方式,例如,可以采用L2正则化或动作裁剪等方法。2) 衰减回放缓冲区的采样概率调整公式,例如,可以使用双曲正切函数来调整采样概率。3) 时间优势的计算方式,例如,可以使用指数移动平均来估计Critic网络的预测值。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文重点在于提出了一种新的算法框架,更侧重于算法设计的合理性与创新性,实验部分未提供具体的性能数据和对比基线,因此无法量化提升幅度。但文章强调,该算法在人形机器人上进行了实验,验证了其在样本效率、样本邻近性和动作安全性方面的有效性。

🎯 应用场景

Symphony算法可应用于各种人形机器人的运动控制任务,例如行走、跑步、跳跃、抓取等。该算法能够提高人形机器人的自主学习能力,使其能够在复杂的环境中完成各种任务。此外,该算法还可以应用于其他类型的机器人,例如四足机器人、无人机等。

📄 摘要(原文)

In our work we implicitly suggest that it is a misconception to think that humans learn fast. The learning process takes time. Babies start learning to move in the restricted fluid environment of the womb. Children are often limited by underdeveloped body. Even adults are not allowed to participate in complex competitions right away. However, with robots, when learning from scratch, we often don't have the privilege of waiting for tens of millions of steps. "Swaddling" regularization is responsible for restraining an agent in rapid but unstable development penalizing action strength in a specific way not affecting actions directly. The Symphony, Transitional-policy Deterministic Actor and Critic algorithm, is a concise combination of different ideas for possibility of training humanoid robots from scratch with Sample Efficiency, Sample Proximity and Safety of Actions in mind. It is well known that continuous increase in Gaussian noise without appropriate smoothing is harmful for motors and gearboxes. Compared to Stochastic algorithms, we set limited parametric noise and promote a reduced strength of actions, safely increasing entropy, since the actions are submerged in weaker noise. When actions require more extreme values, actions rise above the weak noise. Training becomes empirically much safer for both the environment around and the robot's mechanisms. We use Fading Replay Buffer: using a fixed formula containing the hyperbolic tangent, we adjust the batch sampling probability: the memory contains a recent memory and a long-term memory trail. Fading Replay Buffer allows us to use Temporal Advantage when we improve the current Critic Network prediction compared to the exponential moving average. Temporal Advantage allows us to update the Actor and Critic in one pass, as well as combine the Actor and Critic in one Object and implement their Losses in one line.