TrajBooster: Boosting Humanoid Whole-Body Manipulation via Trajectory-Centric Learning
作者: Jiacheng Liu, Pengxiang Ding, Qihang Zhou, Yuxuan Wu, Da Huang, Zimian Peng, Wei Xiao, Weinan Zhang, Lixin Yang, Cewu Lu, Donglin Wang
分类: cs.RO, cs.CV
发布日期: 2025-09-15 (更新: 2025-09-17)
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
TrajBooster:通过轨迹中心学习提升人形机器人全身操作能力
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 人形机器人 全身操作 视觉-语言-动作模型 跨形态学习 轨迹优化 强化学习 模仿学习
📋 核心要点
- 双足人形机器人难以快速适应新动作空间,尤其是在高质量数据稀缺的情况下。
- TrajBooster利用轮式人形机器人的末端执行器轨迹作为形态无关的接口,实现跨形态知识迁移。
- 该方法在Unitree G1上实现了超越桌面的家庭任务,显著提高了鲁棒性和泛化能力。
📝 摘要(中文)
现有的视觉-语言-动作模型在不同机器人形态上展现出泛化潜力,但当高质量的演示数据稀缺时,它们难以快速适应新机器人的动作空间,尤其是在双足人形机器人上。我们提出了TrajBooster,一个跨形态框架,利用丰富的轮式人形机器人数据来提升双足VLA性能。我们的核心思想是使用末端执行器轨迹作为形态无关的接口。TrajBooster (i) 从真实世界的轮式人形机器人中提取6D双臂末端执行器轨迹,(ii) 在模拟环境中将这些轨迹重定向到Unitree G1,通过启发式增强的协调在线DAgger训练的全身控制器,将低维轨迹参考转化为可行的高维全身动作,以及 (iii) 形成异构三元组,将源视觉/语言与目标人形机器人兼容的动作耦合,以对VLA进行后预训练,然后在目标人形机器人领域仅收集10分钟的遥操作数据。在Unitree G1上的部署表明,我们的策略能够完成超越桌面的家庭任务,实现蹲伏、跨高度操作和协调的全身运动,并显著提高鲁棒性和泛化能力。结果表明,TrajBooster允许现有的轮式人形机器人数据有效地增强双足人形机器人的VLA性能,减少对昂贵的同形态数据的依赖,同时增强动作空间理解和零样本技能迁移能力。
🔬 方法详解
问题定义:论文旨在解决双足人形机器人视觉-语言-动作模型(VLA)在数据稀缺情况下难以快速适应新机器人动作空间的问题。现有方法依赖于大量的同形态数据,成本高昂,且泛化能力有限。
核心思路:论文的核心思路是利用轮式人形机器人丰富的动作数据,通过末端执行器轨迹作为形态无关的桥梁,将知识迁移到双足人形机器人上。这种方法解耦了形态差异,使得不同形态的机器人数据可以相互利用。
技术框架:TrajBooster框架包含三个主要阶段:(1) 从轮式人形机器人数据中提取6D双臂末端执行器轨迹;(2) 在模拟环境中,使用启发式增强的协调在线DAgger训练的全身控制器,将轨迹重定向到Unitree G1双足人形机器人,生成可执行的全身动作;(3) 构建异构三元组,将轮式机器人的视觉/语言信息与双足机器人的动作信息关联,进行VLA模型的后预训练。最后,通过少量(10分钟)的遥操作数据进行微调。
关键创新:该方法最重要的创新点在于提出了使用末端执行器轨迹作为跨形态知识迁移的接口。与直接迁移动作或策略相比,轨迹具有形态无关性,更容易实现不同机器人之间的知识共享。此外,使用启发式增强的协调在线DAgger训练全身控制器,能够有效地将低维轨迹参考转化为可行的高维全身动作。
关键设计:启发式增强的协调在线DAgger算法用于训练全身控制器,将末端执行器轨迹转化为关节空间的控制指令。异构三元组的构建方式是将轮式机器人的视觉/语言信息与双足机器人的动作信息配对,用于VLA模型的后预训练。少量遥操作数据用于微调,以适应目标机器人的具体动力学特性。
🖼️ 关键图片
📊 实验亮点
TrajBooster在Unitree G1双足人形机器人上实现了超越桌面的家庭任务,包括蹲伏、跨高度操作和协调的全身运动。与基线方法相比,该方法显著提高了鲁棒性和泛化能力,并且仅需10分钟的遥操作数据进行微调,大大降低了数据收集成本。
🎯 应用场景
该研究成果可应用于各种需要人形机器人进行复杂操作的场景,例如家庭服务、医疗辅助、工业自动化等。通过利用已有的其他形态机器人数据,可以显著降低双足人形机器人的开发成本和部署难度,加速人形机器人在实际场景中的应用。
📄 摘要(原文)
Recent Vision-Language-Action models show potential to generalize across embodiments but struggle to quickly align with a new robot's action space when high-quality demonstrations are scarce, especially for bipedal humanoids. We present TrajBooster, a cross-embodiment framework that leverages abundant wheeled-humanoid data to boost bipedal VLA. Our key idea is to use end-effector trajectories as a morphology-agnostic interface. TrajBooster (i) extracts 6D dual-arm end-effector trajectories from real-world wheeled humanoids, (ii) retargets them in simulation to Unitree G1 with a whole-body controller trained via a heuristic-enhanced harmonized online DAgger to lift low-dimensional trajectory references into feasible high-dimensional whole-body actions, and (iii) forms heterogeneous triplets that couple source vision/language with target humanoid-compatible actions to post-pre-train a VLA, followed by only 10 minutes of teleoperation data collection on the target humanoid domain. Deployed on Unitree G1, our policy achieves beyond-tabletop household tasks, enabling squatting, cross-height manipulation, and coordinated whole-body motion with markedly improved robustness and generalization. Results show that TrajBooster allows existing wheeled-humanoid data to efficiently strengthen bipedal humanoid VLA performance, reducing reliance on costly same-embodiment data while enhancing action space understanding and zero-shot skill transfer capabilities. For more details, For more details, please refer to our \href{https://jiachengliu3.github.io/TrajBooster/}.