Bipedalism for Quadrupedal Robots: Versatile Loco-Manipulation through Risk-Adaptive Reinforcement Learning

📄 arXiv: 2507.20382v1 📥 PDF

作者: Yuyou Zhang, Radu Corcodel, Ding Zhao

分类: cs.RO, cs.LG

发布日期: 2025-07-27

备注: Humanoids 2025


💡 一句话要点

提出基于风险自适应强化学习的四足机器人双足行走方法,实现多功能操作

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 四足机器人 双足行走 强化学习 风险自适应 运动操作

📋 核心要点

  1. 四足机器人腿部操作会影响其运动能力,而安装机械臂则会增加系统复杂性,因此需要新的方案。
  2. 论文提出让四足机器人以后腿进行双足行走,从而解放前腿,用于与环境进行灵活交互。
  3. 通过风险自适应强化学习,机器人能够在不稳定的双足行走中平衡保守性和性能,并在真实机器人上验证了其有效性。

📝 摘要(中文)

本文提出了一种针对四足机器人的双足行走方法,旨在释放前腿以实现多功能交互。为了解决双足行走固有的不稳定性,设计了一种风险自适应分布强化学习框架。该框架能够根据回报的不确定性(通过估计回报分布的变异系数衡量)动态调整风险偏好,从而在最坏情况下的保守性和最优性能之间取得平衡。仿真实验表明,该方法优于基线方法。在Unitree Go2机器人上的实际部署进一步验证了策略的多功能性,能够完成推车、障碍物探测和有效载荷运输等任务,并表现出对动态挑战和外部干扰的鲁棒性。

🔬 方法详解

问题定义:四足机器人进行loco-manipulation(运动操作)时,如果使用腿部作为操作臂,会影响其原有的运动能力。直接在机器人上安装机械臂虽然可以解决操作问题,但会显著增加机器人的重量、体积和复杂性。因此,如何在不显著增加机器人复杂性的前提下,提升其操作能力是一个关键问题。

核心思路:论文的核心思路是让四足机器人以后腿进行双足行走,从而解放前腿,使其能够像人类的手臂一样进行各种操作。这种方法既避免了腿部操作对运动的影响,又避免了增加额外机械臂的复杂性。为了解决双足行走带来的稳定性问题,采用了风险自适应的强化学习方法。

技术框架:整体框架是一个强化学习训练流程,主要包含以下几个阶段:1) 环境交互:机器人与仿真环境进行交互,收集状态、动作和奖励数据。2) 分布式回报估计:使用神经网络估计回报的分布,而不是仅仅估计期望回报。3) 风险评估:根据回报分布计算风险指标,例如变异系数。4) 策略更新:根据风险指标调整策略,在保守性和性能之间进行权衡。5) 循环迭代:重复以上步骤,直到策略收敛。

关键创新:最重要的技术创新点是风险自适应的强化学习方法。传统的强化学习方法通常只关注期望回报的最大化,而忽略了回报的不确定性。在双足行走这种 inherently 不稳定的任务中,忽略不确定性可能会导致策略过于激进,从而导致机器人摔倒。论文提出的方法能够根据回报的不确定性动态调整风险偏好,从而在保守性和性能之间取得平衡。具体来说,当回报的不确定性较高时,策略会更加保守,避免冒险;当回报的不确定性较低时,策略会更加激进,追求更高的性能。

关键设计:关键的设计包括:1) 使用分布式强化学习来估计回报的分布,而不是仅仅估计期望回报。2) 使用变异系数作为风险指标,衡量回报的不确定性。3) 设计一个风险调整函数,根据变异系数动态调整策略。4) 使用合适的奖励函数,鼓励机器人保持平衡,同时完成操作任务。具体的网络结构和参数设置在论文中没有详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

仿真实验表明,该方法在双足行走任务中优于基线方法,能够实现更稳定的行走和更高效的操作。在Unitree Go2机器人上的真实实验验证了策略的有效性和鲁棒性,能够完成推车、障碍物探测和有效载荷运输等任务,并表现出对外部干扰的抵抗能力。具体的性能数据和提升幅度在论文中没有详细说明,属于未知信息。

🎯 应用场景

该研究成果可应用于物流、仓储、巡检等领域。例如,双足行走的四足机器人可以在复杂环境中进行货物搬运、设备维护和安全巡逻。通过解放前腿,机器人可以执行更精细的操作任务,例如打开阀门、检测设备状态等。此外,该技术还可以扩展到其他类型的机器人,例如人形机器人和多足机器人,提高其在复杂环境中的适应性和操作能力。

📄 摘要(原文)

Loco-manipulation of quadrupedal robots has broadened robotic applications, but using legs as manipulators often compromises locomotion, while mounting arms complicates the system. To mitigate this issue, we introduce bipedalism for quadrupedal robots, thus freeing the front legs for versatile interactions with the environment. We propose a risk-adaptive distributional Reinforcement Learning (RL) framework designed for quadrupedal robots walking on their hind legs, balancing worst-case conservativeness with optimal performance in this inherently unstable task. During training, the adaptive risk preference is dynamically adjusted based on the uncertainty of the return, measured by the coefficient of variation of the estimated return distribution. Extensive experiments in simulation show our method's superior performance over baselines. Real-world deployment on a Unitree Go2 robot further demonstrates the versatility of our policy, enabling tasks like cart pushing, obstacle probing, and payload transport, while showcasing robustness against challenging dynamics and external disturbances.