StageACT: Stage-Conditioned Imitation for Robust Humanoid Door Opening

📄 arXiv: 2509.13200v2 📥 PDF

作者: Moonyoung Lee, Dong Ki Kim, Jai Krishna Bandi, Max Smith, Aileen Liao, Ali-akbar Agha-mohammadi, Shayegan Omidshafiei

分类: cs.RO

发布日期: 2025-09-16 (更新: 2025-09-18)

备注: 7 pages


💡 一句话要点

StageACT:基于阶段条件模仿学习的鲁棒人形机器人开门方法

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 人形机器人 模仿学习 阶段条件 行为克隆 长时程任务

📋 核心要点

  1. 人形机器人开门任务面临部分可观测性挑战,门闩状态未知导致传统行为克隆易崩溃。
  2. StageACT通过阶段条件模仿学习,将任务阶段信息融入策略,增强对环境变化的适应性。
  3. 实验表明,StageACT在真实环境中显著提升了开门成功率,并支持基于阶段提示的行为引导。

📝 摘要(中文)

人形机器人有望在无需改造的日常环境中工作。在众多技能中,开门至关重要,因为门是建筑物中最常见的入口,并且经常限制机器人可以到达的地方。然而,开门带来独特的挑战,因为它是一个具有部分可观测性的长时程任务,例如需要推断门闩的不可观测状态,这决定了机器人应该旋转把手还是推门。这种模糊性使得标准行为克隆容易发生模式崩溃,产生混合或乱序的动作。我们引入了StageACT,一个阶段条件模仿学习框架,它用任务阶段输入来增强低级策略。这种有效的添加提高了对部分可观测性的鲁棒性,从而提高了成功率并缩短了完成时间。在真实办公环境中操作的人形机器人上,StageACT在以前未见过的门上实现了55%的成功率,是最佳基线的两倍多。此外,我们的方法支持通过阶段提示进行有意的行为指导,从而实现恢复行为。这些结果突出了阶段条件作为长时程人形机器人操作的轻量级但功能强大的机制。

🔬 方法详解

问题定义:人形机器人开门任务是一个典型的长时程、部分可观测的loco-manipulation任务。现有方法,特别是行为克隆,在面对门闩状态未知等不确定性时,容易产生模式崩溃,导致动作序列混乱或失败。痛点在于如何使机器人能够根据当前任务阶段和环境状态,做出正确的决策,从而完成开门任务。

核心思路:StageACT的核心思路是利用任务阶段信息来调节机器人的行为策略。通过将任务分解为不同的阶段(例如,接近门、握住把手、旋转把手、推门),并显式地将这些阶段作为策略的输入,机器人可以更好地理解当前的任务目标,并选择合适的动作。这种阶段条件模仿学习方法增强了策略的鲁棒性,使其能够更好地应对部分可观测性带来的挑战。

技术框架:StageACT的技术框架主要包括以下几个部分:1) 专家演示数据收集:收集人类或模拟器中专家完成开门任务的演示数据,包括状态、动作和对应的任务阶段。2) 阶段条件策略学习:使用模仿学习算法(例如,行为克隆)训练一个阶段条件策略,该策略以当前状态和任务阶段作为输入,输出机器人的动作。3) 阶段识别模块(可选):如果任务阶段无法直接观测,则需要训练一个阶段识别模块,根据当前状态估计当前的任务阶段。4) 行为引导:通过人为指定任务阶段,引导机器人执行特定的行为,例如,在开门失败后,强制机器人回到“握住把手”阶段。

关键创新:StageACT的关键创新在于将任务阶段信息显式地融入到模仿学习框架中。与传统的行为克隆方法相比,StageACT能够更好地利用任务的结构化信息,从而提高策略的鲁棒性和泛化能力。此外,StageACT还支持基于阶段提示的行为引导,使得用户可以更容易地控制机器人的行为。

关键设计:StageACT的关键设计包括:1) 阶段划分:将开门任务划分为合理的阶段,例如,接近门、握住把手、旋转把手、推门。2) 阶段表示:使用one-hot编码或其他方式表示任务阶段。3) 策略网络结构:使用神经网络作为策略函数,输入包括当前状态和阶段表示,输出机器人的动作。4) 损失函数:使用行为克隆损失函数,即最小化策略输出的动作与专家演示数据中的动作之间的差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

StageACT在真实办公环境中进行了实验,在之前未见过的门上实现了55%的开门成功率,是最佳基线方法的两倍以上。此外,该方法还支持通过阶段提示进行行为引导,使得机器人能够在开门失败后进行恢复。这些结果表明,StageACT是一种有效且鲁棒的人形机器人开门方法。

🎯 应用场景

StageACT技术可广泛应用于人形机器人或其他机器人的操作任务中,尤其适用于需要长时程规划和处理部分可观测性的复杂任务,如家庭服务、医疗辅助、工业自动化等。该技术能够提升机器人在真实环境中的适应性和鲁棒性,使其能够更好地与人类协同工作,完成各种日常任务。

📄 摘要(原文)

Humanoid robots promise to operate in everyday human environments without requiring modifications to the surroundings. Among the many skills needed, opening doors is essential, as doors are the most common gateways in built spaces and often limit where a robot can go. Door opening, however, poses unique challenges as it is a long-horizon task under partial observability, such as reasoning about the door's unobservable latch state that dictates whether the robot should rotate the handle or push the door. This ambiguity makes standard behavior cloning prone to mode collapse, yielding blended or out-of-sequence actions. We introduce StageACT, a stage-conditioned imitation learning framework that augments low-level policies with task-stage inputs. This effective addition increases robustness to partial observability, leading to higher success rates and shorter completion times. On a humanoid operating in a real-world office environment, StageACT achieves a 55% success rate on previously unseen doors, more than doubling the best baseline. Moreover, our method supports intentional behavior guidance through stage prompting, enabling recovery behaviors. These results highlight stage conditioning as a lightweight yet powerful mechanism for long-horizon humanoid loco-manipulation.