Phase-Aware Policy Learning for Skateboard Riding of Quadruped Robots via Feature-wise Linear Modulation

作者: Minsung Yoon, Jeil Jeong, Sung-Eui Yoon

分类: cs.RO

发布日期: 2026-02-10

备注: Accepted at ICRA 2026. Supplementary Video: https://www.youtube.com/watch?v=bCNfdQ3RYKg. M. Yoon and J. Jeong contributed equally

💡 一句话要点

提出基于相位感知的强化学习方法PAPL，用于四足机器人滑板控制

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 四足机器人 滑板控制 强化学习 相位感知 特征线性调制

📋 核心要点

现有方法难以应对滑板运动中感知驱动的交互和多模态控制目标，导致四足机器人滑板控制面临挑战。
PAPL利用滑板运动的循环特性，通过相位条件化的特征线性调制层，实现相位相关的行为控制和知识共享。
仿真实验验证了PAPL在命令跟踪精度和运动效率方面的优势，并证明了其在真实世界中的可行性。

📝 摘要（中文）

滑板作为一种个人移动设备，提供了一种紧凑而高效的交通方式。然而，由于感知驱动的交互以及跨不同滑板阶段的多模态控制目标，使用腿式机器人控制滑板对策略学习提出了诸多挑战。为了应对这些挑战，我们提出了一种相位感知策略学习（PAPL）框架，该框架专为四足机器人滑板运动而设计。PAPL利用滑板运动的循环特性，将相位条件化的特征线性调制层集成到Actor和Critic网络中，从而实现了一种统一的策略，该策略在捕获相位相关行为的同时，共享跨相位的机器人特定知识。在仿真环境中的评估验证了命令跟踪的准确性，并通过消融研究量化了每个组件的贡献。我们还将运动效率与腿式和轮腿式基线进行了比较，并展示了真实世界的迁移能力。

🔬 方法详解

问题定义：论文旨在解决四足机器人滑板控制中的策略学习问题。现有方法难以处理滑板运动中感知驱动的交互，以及不同滑板阶段（例如，推动、平衡、转向）的多模态控制目标。这些因素导致策略学习困难，难以实现稳定和高效的滑板运动。

核心思路：论文的核心思路是利用滑板运动的周期性，将滑板运动分解为不同的相位，并针对每个相位学习特定的控制策略。通过在Actor和Critic网络中引入相位条件化的特征线性调制（FiLM）层，使策略能够根据当前相位自适应地调整行为，从而实现更精细和高效的控制。

技术框架：PAPL框架基于强化学习算法，包含Actor网络和Critic网络。Actor网络负责生成控制指令，Critic网络负责评估当前状态的价值。关键在于，Actor和Critic网络都包含相位条件化的FiLM层。该层接收当前滑板运动的相位作为输入，并根据相位信息调整网络的特征表示。整个训练过程采用标准的强化学习流程，通过与环境交互不断优化策略。

关键创新：PAPL的关键创新在于相位条件化的特征线性调制（FiLM）层。传统的强化学习方法通常使用单一的策略来控制机器人的所有行为，而PAPL则根据滑板运动的相位动态调整策略。FiLM层允许网络根据当前相位自适应地调整特征表示，从而实现更精细和高效的控制。这种方法能够更好地捕捉滑板运动的复杂性和多模态特性。

关键设计：相位信息通过编码器获得，并输入到FiLM层中。FiLM层通过两个线性变换（γ和β）来调制特征图，公式为：FiLM(x) = γ * x + β，其中x是输入特征，γ和β是相位编码的函数。Actor和Critic网络的具体结构未知，但都包含多个FiLM层。损失函数采用标准的强化学习损失函数，例如PPO的裁剪损失。

🖼️ 关键图片

📊 实验亮点

仿真实验表明，PAPL在命令跟踪精度和运动效率方面优于传统的腿式和轮腿式基线方法。消融研究验证了相位条件化和FiLM层对性能提升的贡献。此外，实验还证明了PAPL策略在真实世界中的迁移能力，表明该方法具有良好的泛化性能。具体性能数据未知。

🎯 应用场景

该研究成果可应用于开发更智能、更灵活的腿式机器人，使其能够在复杂环境中执行任务，例如在城市环境中进行快速移动和运输。此外，该方法还可以推广到其他具有周期性运动特征的机器人控制任务，例如跑步、跳跃等。未来，该技术有望应用于物流、救援、娱乐等领域。

📄 摘要（原文）

Skateboards offer a compact and efficient means of transportation as a type of personal mobility device. However, controlling them with legged robots poses several challenges for policy learning due to perception-driven interactions and multi-modal control objectives across distinct skateboarding phases. To address these challenges, we introduce Phase-Aware Policy Learning (PAPL), a reinforcement-learning framework tailored for skateboarding with quadruped robots. PAPL leverages the cyclic nature of skateboarding by integrating phase-conditioned Feature-wise Linear Modulation layers into actor and critic networks, enabling a unified policy that captures phase-dependent behaviors while sharing robot-specific knowledge across phases. Our evaluations in simulation validate command-tracking accuracy and conduct ablation studies quantifying each component's contribution. We also compare locomotion efficiency against leg and wheel-leg baselines and show real-world transferability.

Phase-Aware Policy Learning for Skateboard Riding of Quadruped Robots via Feature-wise Linear Modulation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理