Cybo-Waiter: A Physical Agentic Framework for Humanoid Whole-Body Locomotion-Manipulation
作者: Peng Ren, Haoyang Ge, Chuan Qi, Cong Huang, Hong Li, Jiang Zhao, Pei Chi, Kai Chen
分类: cs.RO
发布日期: 2026-03-11
💡 一句话要点
提出Cybo-Waiter框架,解决人型机器人在复杂环境中长时程操作任务的鲁棒性问题
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 人型机器人 全身运动操作 视觉语言模型 3D场景理解 长时程任务
📋 核心要点
- 人型机器人在复杂环境中执行长时程任务面临运动和操作紧密耦合的挑战,现有方法难以保证鲁棒性。
- Cybo-Waiter框架将VLM计划转化为可验证的任务程序,利用3D几何监督闭环,实现条件级诊断和反馈。
- 实验表明,该框架通过多对象定位、时间稳定性和恢复驱动的重新规划,显著提升了人型机器人的任务执行鲁棒性。
📝 摘要(中文)
本文提出了一种人型机器人代理框架,旨在使机器人能够在人类环境中执行开放式的自然语言请求,并在部分可观测条件下实现可靠的长时程执行。对于人型机器人而言,这尤其具有挑战性,因为运动和操作通过姿态、可达性和平衡紧密耦合。该框架将VLM计划转换为可验证的任务程序,并通过多对象3D几何监督形成闭环。VLM规划器将每个指令编译成一个类型化的JSON子任务序列,其中包含显式的基于谓词的前提条件和成功条件。利用SAM3和RGB-D,在3D空间中定位所有任务相关实体,估计对象质心和范围,并在稳定帧上评估谓词以获得条件级诊断。监督器使用这些诊断来验证子任务的完成情况,并提供条件级反馈以进行推进和重新规划。通过协调人型机器人的运动和全身操作来执行每个子任务,并在可达性和平衡约束下选择可行的运动原语。在桌面操作和长时程人型机器人运动操作任务上的实验表明,多对象定位、时间稳定性和恢复驱动的重新规划提高了鲁棒性。
🔬 方法详解
问题定义:现有的人型机器人难以在部分可观测的人类环境中可靠地执行长时程操作任务。运动和操作的紧密耦合(例如,姿态、可达性和平衡)使得任务规划和执行变得复杂,容易受到环境噪声和感知误差的影响。现有方法通常难以处理这些复杂性,导致任务失败率较高。
核心思路:本文的核心思路是将高级的自然语言指令分解为一系列可验证的子任务,并利用3D几何信息对任务执行过程进行监督和反馈。通过将VLM(Vision-Language Model)的规划结果转化为结构化的JSON任务程序,并结合RGB-D数据和SAM3进行3D场景理解,机器人可以更好地理解任务目标和环境状态,从而更有效地执行任务。
技术框架:Cybo-Waiter框架包含以下主要模块:1) VLM规划器:将自然语言指令编译成JSON格式的子任务序列,每个子任务包含前提条件和成功条件。2) 3D场景理解模块:利用SAM3和RGB-D数据,对任务相关的对象进行3D定位和范围估计。3) 任务执行模块:协调人型机器人的运动和全身操作,选择满足可达性和平衡约束的运动原语。4) 监督器:根据3D场景理解的结果,验证子任务的完成情况,并提供条件级反馈,用于任务推进和重新规划。
关键创新:该框架的关键创新在于将VLM规划与3D几何监督相结合,形成了一个闭环的反馈系统。通过显式地定义子任务的前提条件和成功条件,并利用3D信息进行验证,机器人可以更好地检测和纠正错误,从而提高任务执行的鲁棒性。此外,该框架还采用了恢复驱动的重新规划策略,当任务执行失败时,可以根据反馈信息进行重新规划,避免任务完全失败。
关键设计:VLM规划器使用预训练的视觉语言模型生成JSON格式的任务程序。3D场景理解模块使用SAM3进行对象分割,并结合RGB-D数据估计对象的质心和范围。任务执行模块使用运动规划算法选择满足可达性和平衡约束的运动原语。监督器使用基于谓词的逻辑规则来验证子任务的完成情况,并生成条件级反馈。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Cybo-Waiter框架在桌面操作和长时程人型机器人运动操作任务上表现出显著的鲁棒性提升。通过多对象定位、时间稳定性和恢复驱动的重新规划,该框架能够有效地处理环境噪声和感知误差,从而提高任务成功率。具体的性能数据和对比基线(如传统运动规划方法)的详细结果需要在论文中查找。
🎯 应用场景
该研究成果可应用于服务机器人、家庭助手、工业自动化等领域。例如,在餐厅中,机器人可以根据顾客的自然语言点餐指令,完成上菜、清理桌面等任务。在家庭环境中,机器人可以帮助老人或残疾人完成日常家务。在工业自动化领域,机器人可以执行复杂的装配和搬运任务。该研究有助于提升机器人在复杂环境中的自主性和适应性。
📄 摘要(原文)
Robots are increasingly expected to execute open ended natural language requests in human environments, which demands reliable long horizon execution under partial observability. This is especially challenging for humanoids because locomotion and manipulation are tightly coupled through stance, reachability, and balance. We present a humanoid agent framework that turns VLM plans into verifiable task programs and closes the loop with multi object 3D geometric supervision. A VLM planner compiles each instruction into a typed JSON sequence of subtasks with explicit predicate based preconditions and success conditions. Using SAM3 and RGB-D, we ground all task relevant entities in 3D, estimate object centroids and extents, and evaluate predicates over stable frames to obtain condition level diagnostics. The supervisor uses these diagnostics to verify subtask completion and to provide condition-level feedback for progression and replanning. We execute each subtask by coordinating humanoid locomotion and whole-body manipulation, selecting feasible motion primitives under reachability and balance constraints. Experiments on tabletop manipulation and long horizon humanoid loco manipulation tasks show improved robustness from multi object grounding, temporal stability, and recovery driven replanning.