World-Ego Modeling for Long-Horizon Evolution in Hybrid Embodied Tasks
作者: Zuyao Lin, Jianhui Zhang, Peidong Jia, Xiaoguang Zhao, Shanghang Zhang, Xingyu Chen
分类: cs.CV, cs.AI, cs.RO
发布日期: 2026-05-19
💡 一句话要点
提出World-Ego Modeling,解决具身混合任务中长时序预测的世界-自我纠缠问题。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 具身智能 世界模型 长时序预测 混合任务 解耦学习
📋 核心要点
- 现有世界模型在具身任务中,世界和自我的演化预测相互纠缠,导致长时序任务性能下降。
- 论文提出World-Ego Modeling范式,将未来演化解耦为世界和自我两部分,并设计了相应的模型WEM。
- 构建了新的长时序混合任务基准HTEWorld,实验表明WEM在该基准上取得了SOTA性能。
📝 摘要(中文)
本文提出了一种新的概念范式——World-Ego Modeling,用于解决具身智能中世界模型在长时序混合任务中性能退化的问题。该方法将未来演化分解为世界和自我两个组成部分,并从运动、语义和意图三个角度定义了世界-自我边界,分析了后解耦、预解耦和完全解耦三种解耦策略。作者将此范式实例化为World-Ego Model (WEM),这是一个统一的具身世界模型,它将隐式的分离世界-自我规划器与级联并行混合专家扩散生成器相结合。为了进行严格的评估,作者构建了HTEWorld,这是第一个用于长时序世界建模的混合导航-操作任务基准,提供超过450万帧的12.5万个视频片段,以及带有精细动作注释和300个多轮评估轨迹(超过2000条指令)。大量实验表明,WEM在HTEWorld上实现了最先进的性能,同时在现有的仅操作基准上保持了竞争力。
🔬 方法详解
问题定义:现有具身智能中的世界模型通常将世界和自我的演化预测融合在单一的信息流中,导致世界(指令无关的场景规律)和自我(机器人中心的指令条件动态)相互纠缠。这种纠缠在长时程具身任务中,特别是导航和操作混合任务中,会造成性能下降。现有方法难以有效区分和建模世界和自我的独立演化过程。
核心思路:论文的核心思路是将未来演化过程解耦为世界和自我两个独立的组成部分。世界部分捕捉与指令无关的场景规律,自我部分捕捉机器人中心的、指令条件下的动态。通过显式地建模世界和自我的独立演化,可以减少二者之间的干扰,从而提高长时程预测的准确性。这种解耦使得模型能够更好地理解和预测复杂环境中的长期行为。
技术框架:World-Ego Model (WEM) 包含一个隐式的分离世界-自我规划器和一个级联并行混合专家扩散生成器 (CP-MoE)。规划器负责生成世界和自我的行动序列,CP-MoE则根据这些行动序列生成未来的视觉表征。整体流程是:首先,规划器根据当前状态和指令生成世界和自我的行动序列;然后,CP-MoE根据这些行动序列生成未来的图像帧;最后,模型根据生成的图像帧和真实图像帧计算损失,并进行反向传播更新模型参数。
关键创新:最重要的技术创新点在于World-Ego Modeling范式的提出,以及将世界和自我解耦的思想。与现有方法相比,WEM能够更清晰地建模世界和自我的独立演化过程,从而提高长时程预测的准确性。此外,CP-MoE的设计也提高了生成模型的表达能力和生成质量。
关键设计:论文从运动、语义和意图三个角度定义了世界-自我边界。CP-MoE采用级联并行的结构,每个专家负责生成图像的不同部分,从而提高生成效率和质量。损失函数包括图像重建损失、行动预测损失和对比学习损失,用于约束模型学习到有效的世界和自我表征。
🖼️ 关键图片
📊 实验亮点
WEM在作者构建的HTEWorld基准上取得了SOTA性能,显著优于现有方法。同时,在现有的仅操作基准上,WEM也保持了竞争力,表明其具有良好的泛化能力。实验结果验证了World-Ego Modeling范式的有效性,以及WEM模型在长时序混合任务中的优越性。
🎯 应用场景
该研究成果可应用于机器人导航、操作和人机协作等领域。例如,在家庭服务机器人中,可以利用该模型预测机器人在执行复杂任务时的行为,从而提高机器人的自主性和可靠性。此外,该模型还可以用于虚拟现实和游戏等领域,生成更逼真的虚拟环境和角色行为。
📄 摘要(原文)
World models are widely explored in embodied intelligence, yet they typically predict distinct evolutions of the world and the ego within a single stream, where the world captures persistent instruction-agnostic scene regularities and the ego captures robot-centric instruction-conditioned dynamics. This world-ego entanglement leads to a degradation in long-horizon embodied scenarios, particularly in hybrid tasks with interleaved navigation and manipulation behaviors. In this paper, we introduce \emph{World-Ego Modeling}, a new conceptual paradigm that decomposes future evolution into world and ego components. We define the world-ego boundary from three perspectives, i.e., motion-, semantic-, and intention-based views, and analyze three disentanglement strategies with post-, pre-, and full disentanglement. Further, we instantiate this paradigm as the World-Ego Model (WEM), a unified embodied world model that couples an implicit separate world-ego planner with a cascade-parallel mixture-of-experts (CP-MoE) diffusion generator. To enable rigorous evaluation, we further construct HTEWorld, the first benchmark for long-horizon world modeling with hybrid navigation-manipulation tasks, providing 125K video clips (over 4.5M frames) with fine-grained action annotations and 300 multi-turn evaluation trajectories (over 2K instructions). Extensive experiments show that WEM achieves state-of-the-art performance on HTEWorld while remaining competitive on existing manipulation-only benchmarks.