Periodic Skill Discovery
作者: Jonghae Park, Daesol Cho, Jusuk Lee, Dongseok Shim, Inkyu Jang, H. Jin Kim
分类: cs.LG, cs.RO
发布日期: 2025-11-05 (更新: 2025-11-27)
备注: NeurIPS 2025
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出周期性技能发现(PSD)框架,用于无监督地学习机器人周期性运动技能。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 无监督学习 技能发现 强化学习 周期性行为 机器人运动控制
📋 核心要点
- 现有无监督技能发现方法忽略了机器人运动技能的周期性特点,限制了其在复杂运动任务中的应用。
- PSD框架通过将状态编码到圆形潜在空间,自然地编码了周期性,从而能够学习具有不同周期的技能。
- 实验表明,PSD学习到的技能在下游任务中表现出色,并且与现有方法结合可以提升技能的多样性。
📝 摘要(中文)
强化学习中的无监督技能发现旨在学习多样化的行为,而无需依赖外部奖励。然而,现有方法通常忽略了学习到的技能的周期性,而是侧重于增加状态和技能之间的互依赖性或最大化潜在空间中的行进距离。考虑到许多机器人任务(特别是涉及运动的任务)需要在不同的时间尺度上进行周期性行为,因此发现多样化的周期性技能的能力至关重要。为此,我们提出了周期性技能发现(PSD),这是一个以无监督方式发现周期性行为的框架。PSD 的关键思想是训练一个编码器,将状态映射到圆形潜在空间,从而自然地在潜在表示中编码周期性。通过捕获时间距离,PSD 可以有效地学习复杂机器人任务中具有不同周期的技能,即使是基于像素的观察也是如此。我们进一步表明,这些学习到的技能在跨栏等下游任务中实现了高性能。此外,将 PSD 与现有的技能发现方法相结合可以提供更多样化的行为,从而扩大智能体的能力。
🔬 方法详解
问题定义:现有无监督技能发现方法在学习机器人运动技能时,往往忽略了运动的周期性特征。这些方法通常侧重于最大化状态和技能之间的互信息,或者最大化潜在空间中的距离,而没有显式地建模周期性行为。这导致学习到的技能缺乏周期性,难以应用于需要周期性运动的复杂机器人任务,例如行走、跑步和游泳等。
核心思路:PSD的核心思路是将状态编码到一个圆形潜在空间中。圆形潜在空间的几何特性天然地适合表示周期性行为。通过将状态映射到圆形空间,PSD能够捕捉到状态之间的时间距离,从而学习到具有不同周期的技能。这种方法避免了显式地建模周期性,而是通过潜在空间的几何结构来隐式地编码周期性。
技术框架:PSD框架主要包含一个编码器和一个策略网络。编码器将状态映射到圆形潜在空间,策略网络根据潜在空间中的表示生成动作。训练过程采用无监督的方式,目标是最大化智能体在环境中的探索能力,同时保持潜在表示的周期性。具体来说,PSD使用了一种基于时间对比学习的损失函数,鼓励相似时间步的状态在潜在空间中具有相似的表示。
关键创新:PSD的关键创新在于使用圆形潜在空间来编码周期性行为。与现有方法相比,PSD不需要显式地建模周期性,而是通过潜在空间的几何结构来隐式地编码周期性。这种方法更加简洁高效,并且能够学习到具有不同周期的技能。此外,PSD还提出了一种基于时间对比学习的损失函数,用于训练编码器,鼓励相似时间步的状态在潜在空间中具有相似的表示。
关键设计:编码器通常采用卷积神经网络或循环神经网络,具体取决于输入状态的表示形式。圆形潜在空间的维度通常设置为2,以便于可视化和理解。时间对比学习的损失函数采用InfoNCE损失,用于区分相似和不相似的时间步。策略网络通常采用多层感知机,将潜在空间中的表示映射到动作空间。
📊 实验亮点
实验结果表明,PSD在学习周期性运动技能方面优于现有方法。在跨栏任务中,使用PSD学习到的技能的机器人能够成功跨越更高的障碍物。此外,将PSD与现有的技能发现方法相结合,可以显著提高技能的多样性。例如,在Mujoco环境中,PSD能够学习到更多样化的运动模式,例如翻滚、跳跃和旋转等。
🎯 应用场景
PSD在机器人运动控制领域具有广泛的应用前景。它可以用于学习各种周期性运动技能,例如行走、跑步、游泳和跳跃等。这些技能可以应用于各种机器人平台,例如人形机器人、四足机器人和水下机器人等。此外,PSD还可以与其他技能发现方法相结合,从而扩展机器人的技能库,提高其适应性和鲁棒性。未来,PSD有望应用于更复杂的机器人任务,例如自主导航、物体操作和人机协作等。
📄 摘要(原文)
Unsupervised skill discovery in reinforcement learning (RL) aims to learn diverse behaviors without relying on external rewards. However, current methods often overlook the periodic nature of learned skills, focusing instead on increasing the mutual dependence between states and skills or maximizing the distance traveled in latent space. Considering that many robotic tasks - particularly those involving locomotion - require periodic behaviors across varying timescales, the ability to discover diverse periodic skills is essential. Motivated by this, we propose Periodic Skill Discovery (PSD), a framework that discovers periodic behaviors in an unsupervised manner. The key idea of PSD is to train an encoder that maps states to a circular latent space, thereby naturally encoding periodicity in the latent representation. By capturing temporal distance, PSD can effectively learn skills with diverse periods in complex robotic tasks, even with pixel-based observations. We further show that these learned skills achieve high performance on downstream tasks such as hurdling. Moreover, integrating PSD with an existing skill discovery method offers more diverse behaviors, thus broadening the agent's repertoire. Our code and demos are available at https://jonghaepark.github.io/psd/