GeCCo -- a Generalist Contact-Conditioned Policy for Loco-Manipulation Skills on Legged Robots

📄 arXiv: 2509.17582v1 📥 PDF

作者: Vassil Atanassov, Wanming Yu, Siddhant Gangapurwala, James Wilson, Ioannis Havoutis

分类: cs.RO

发布日期: 2025-09-22

备注: You can find an associated video here: https://youtu.be/o8Dd44MkG2E


💡 一句话要点

GeCCo:一种用于腿式机器人运动操作技能的通用接触条件策略

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 四足机器人 深度强化学习 运动控制 接触条件策略 通用策略

📋 核心要点

  1. 现有四足机器人运动方法依赖端到端深度强化学习,面临奖励函数设计困难和泛化性不足的挑战。
  2. GeCCo通过学习通用的接触条件策略,实现对四足机器人任意接触点的跟踪,从而解耦低级控制与高级任务规划。
  3. 实验表明,GeCCo在多种运动和操作任务中表现出良好的可扩展性和鲁棒性,并能快速适应新任务。

📝 摘要(中文)

大多数现代四足机器人运动方法侧重于使用深度强化学习(DRL)以端到端的方式从头开始学习策略。然而,这些方法通常难以扩展,因为每个新问题或应用都需要耗时且迭代的奖励定义和调整。本文提出了一种通用接触条件策略(GeCCo),这是一种通过深度强化学习训练的低级策略,能够跟踪四足机器人上的任意接触点。该方法的核心优势在于提供了一种通用且模块化的低级控制器,可以重复用于更广泛的高级任务,而无需从头开始重新训练新的控制器。通过在一个通用框架和单一通用策略下,评估各种运动和操作任务,包括不同的步态、穿越复杂地形(如楼梯和斜坡)以及以前未见过的踏脚石和窄梁,以及与物体交互(如按下按钮、跟踪轨迹),证明了该方法的可扩展性和鲁棒性。该框架通过简单地结合特定于任务的高级接触规划器和预训练的通用策略,更有效地获取新的行为。

🔬 方法详解

问题定义:现有四足机器人运动控制方法,特别是基于深度强化学习的方法,通常需要针对每个特定任务从头开始训练策略。这导致了训练过程耗时,且训练好的策略难以泛化到新的环境或任务中。奖励函数的设计和调整也十分困难,需要大量的实验和领域知识。

核心思路:GeCCo的核心思路是将低级运动控制与高级任务规划解耦。通过训练一个通用的、接触条件化的低级策略,该策略能够根据高级规划器指定的接触点,控制机器人的运动。这样,只需要针对特定任务设计高级规划器,而无需重新训练低级控制器。

技术框架:GeCCo框架包含两个主要部分:一个预训练的通用接触条件策略(GeCCo)和一个任务特定的高级接触规划器。GeCCo策略接收机器人的状态和期望的接触点作为输入,输出关节力矩。高级规划器根据任务目标,生成一系列的接触点,并将其传递给GeCCo策略。整个框架采用模块化设计,可以方便地替换或修改高级规划器。

关键创新:GeCCo的关键创新在于其通用性和模块化。通过接触条件化的方式,将低级控制与高级任务解耦,使得同一个低级策略可以用于多种不同的任务。这种方法避免了为每个新任务重新训练策略的需要,大大提高了效率。

关键设计:GeCCo策略采用深度神经网络实现,输入包括机器人的状态(如关节角度、角速度、躯干姿态等)和期望的接触点。网络输出关节力矩。训练过程中,使用强化学习算法,奖励函数鼓励机器人跟踪期望的接触点,并保持平衡。具体参数设置和网络结构在论文中未详细说明,属于未知信息。

📊 实验亮点

论文通过大量实验验证了GeCCo的有效性。实验结果表明,GeCCo能够成功地控制四足机器人完成各种运动和操作任务,包括不同的步态、穿越复杂地形(如楼梯和斜坡)、以及与物体交互(如按下按钮、跟踪轨迹)。与从头开始训练的策略相比,GeCCo能够更快地适应新的任务,并且具有更好的泛化能力。具体的性能数据和提升幅度在论文中未明确给出,属于未知信息。

🎯 应用场景

GeCCo具有广泛的应用前景,例如在复杂地形下的搜索救援、工业巡检、物流运输等领域。通过结合不同的高级规划器,GeCCo可以实现各种复杂的运动和操作任务。此外,GeCCo的模块化设计也使得其易于集成到现有的机器人系统中,加速了四足机器人的应用落地。未来,GeCCo有望成为四足机器人运动控制的标准解决方案。

📄 摘要(原文)

Most modern approaches to quadruped locomotion focus on using Deep Reinforcement Learning (DRL) to learn policies from scratch, in an end-to-end manner. Such methods often fail to scale, as every new problem or application requires time-consuming and iterative reward definition and tuning. We present Generalist Contact-Conditioned Policy (GeCCo) -- a low-level policy trained with Deep Reinforcement Learning that is capable of tracking arbitrary contact points on a quadruped robot. The strength of our approach is that it provides a general and modular low-level controller that can be reused for a wider range of high-level tasks, without the need to re-train new controllers from scratch. We demonstrate the scalability and robustness of our method by evaluating on a wide range of locomotion and manipulation tasks in a common framework and under a single generalist policy. These include a variety of gaits, traversing complex terrains (eg. stairs and slopes) as well as previously unseen stepping-stones and narrow beams, and interacting with objects (eg. pushing buttons, tracking trajectories). Our framework acquires new behaviors more efficiently, simply by combining a task-specific high-level contact planner and the pre-trained generalist policy. A supplementary video can be found at https://youtu.be/o8Dd44MkG2E.