Hi-WM: Human-in-the-World-Model for Scalable Robot Post-Training
作者: Yaxuan Li, Zhongyi Zhou, Yefei Chen, Yanjiang Guo, Jiaming Liu, Shanghang Zhang, Jianyu Chen, Yichen Zhu
分类: cs.RO
发布日期: 2026-04-23
备注: Project Page: https://hi-wm.github.io/
💡 一句话要点
Hi-WM:利用世界模型实现可扩展的机器人后训练,提升人机协作效率。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 机器人后训练 世界模型 人机协作 策略优化 强化学习
📋 核心要点
- 现有机器人后训练方法依赖于真实环境中的人机交互,成本高昂且效率低下,限制了策略的快速迭代和优化。
- Hi-WM利用学习到的世界模型作为校正基底,允许人类在虚拟环境中对策略进行干预和纠正,从而降低了成本并提高了效率。
- 实验表明,Hi-WM在真实世界的操作任务中显著提高了策略的成功率,并且世界模型的评估结果与真实世界的性能高度相关。
📝 摘要(中文)
后训练对于将预训练的通用机器人策略转化为可靠的特定任务控制器至关重要,但现有的人在环流水线仍然与物理执行相关联:每次校正都需要机器人时间、场景设置、重置和操作员在现实世界中的监督。同时,以动作为条件的世界模型主要用于想象、合成数据生成和策略评估。我们提出了Human-in-the-World-Model (Hi-WM),这是一个后训练框架,它使用学习到的世界模型作为可重用的校正基底,用于针对失败的策略改进。首先在世界模型中闭环地展开策略;当展开变得不正确或容易失败时,人类直接在模型中进行干预,以提供简短的校正动作。Hi-WM缓存中间状态并支持回滚和分支,允许单个失败状态被重用于多个校正延续,从而在基础策略处理不佳的行为周围产生密集的监督。然后将生成的校正轨迹添加回训练集以进行后训练。我们在三个现实世界的操作任务(涵盖刚性和可变形对象交互)和两个策略骨干网上评估了Hi-WM。Hi-WM在真实世界中的成功率平均比基础策略提高了37.9个百分点,比世界模型闭环基线提高了19.0个百分点,而世界模型的评估与真实世界的性能密切相关(r = 0.953)。这些结果表明,世界模型不仅可以作为生成器或评估器,还可以作为可扩展机器人后训练的有效校正基底。
🔬 方法详解
问题定义:现有机器人后训练方法主要依赖于真实环境中的人机交互,每次策略失败都需要在真实环境中进行重置、调整和重新训练,耗费大量时间和资源。这种方式难以扩展到复杂的任务和场景,限制了通用机器人策略的快速迭代和优化。现有方法的痛点在于缺乏一个高效、可复用的策略改进平台。
核心思路:Hi-WM的核心思路是利用学习到的世界模型来模拟真实环境,并允许人类在世界模型中对机器人策略进行干预和纠正。通过在虚拟环境中进行策略改进,可以显著降低成本,提高效率,并实现可扩展的机器人后训练。这种方法将人类的先验知识融入到策略学习过程中,加速了策略的收敛。
技术框架:Hi-WM的整体框架包括以下几个主要阶段:1) 策略在世界模型中进行闭环 rollout;2) 当rollout出现错误或接近失败时,人类在世界模型中进行干预,提供校正动作;3) Hi-WM缓存中间状态,支持回滚和分支,允许对单个失败状态进行多次校正;4) 将生成的校正轨迹添加到训练集中,用于策略的后训练。
关键创新:Hi-WM最重要的技术创新点在于将世界模型作为可重用的校正基底,用于失败导向的策略改进。与传统的在真实环境中进行人机交互的后训练方法相比,Hi-WM显著降低了成本,提高了效率,并实现了可扩展的机器人后训练。此外,Hi-WM支持回滚和分支,允许对单个失败状态进行多次校正,从而生成更密集的监督信号。
关键设计:Hi-WM的关键设计包括:1) 使用动作条件世界模型来预测环境的未来状态;2) 设计人机交互界面,允许人类在世界模型中方便地进行干预和校正;3) 实现回滚和分支功能,支持对单个失败状态进行多次校正;4) 设计合适的损失函数,用于训练世界模型和后训练策略。
🖼️ 关键图片
📊 实验亮点
Hi-WM在三个真实世界的操作任务中进行了评估,结果表明,Hi-WM的性能显著优于基线方法。具体来说,Hi-WM在真实世界中的成功率平均比基础策略提高了37.9个百分点,比世界模型闭环基线提高了19.0个百分点。此外,世界模型的评估结果与真实世界的性能高度相关(r = 0.953),验证了世界模型作为校正基底的有效性。
🎯 应用场景
Hi-WM可应用于各种机器人操作任务,例如装配、抓取、操作工具等。它能够显著降低机器人策略的开发成本,提高策略的鲁棒性和泛化能力。该研究对于推动机器人技术在工业自动化、医疗保健、家庭服务等领域的应用具有重要意义,并有望加速通用机器人的发展。
📄 摘要(原文)
Post-training is essential for turning pretrained generalist robot policies into reliable task-specific controllers, but existing human-in-the-loop pipelines remain tied to physical execution: each correction requires robot time, scene setup, resets, and operator supervision in the real world. Meanwhile, action-conditioned world models have been studied mainly for imagination, synthetic data generation, and policy evaluation. We propose \textbf{Human-in-the-World-Model (Hi-WM)}, a post-training framework that uses a learned world model as a reusable corrective substrate for failure-targeted policy improvement. A policy is first rolled out in closed loop inside the world model; when the rollout becomes incorrect or failure-prone, a human intervenes directly in the model to provide short corrective actions. Hi-WM caches intermediate states and supports rollback and branching, allowing a single failure state to be reused for multiple corrective continuations and yielding dense supervision around behaviors that the base policy handles poorly. The resulting corrective trajectories are then added back to the training set for post-training. We evaluate Hi-WM on three real-world manipulation tasks spanning both rigid and deformable object interaction, and on two policy backbones. Hi-WM improves real-world success by 37.9 points on average over the base policy and by 19.0 points over a world-model closed-loop baseline, while world-model evaluation correlates strongly with real-world performance (r = 0.953). These results suggest that world models can serve not only as generators or evaluators, but also as effective corrective substrates for scalable robot post-training.