Ego2World: Compiling Egocentric Cooking Videos into Executable Worlds for Belief-State Planning

📄 arXiv: 2605.13335v1 📥 PDF

作者: Qinchuan Cheng, Zhantao Gong, Pengzhan Sun, Angela Yao, Xulei Yang, Shijie Li

分类: cs.AI, cs.CV

发布日期: 2026-05-13

备注: Project page: https://sj-li.com/PROJ/Ego2World/


💡 一句话要点

Ego2World:将第一人称烹饪视频编译为可执行世界,用于信念状态规划

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱六:视频提取与匹配 (Video Extraction)

关键词: 具身智能 第一人称视频 信念状态规划 符号世界 HD-EPIC 环境交互 任务规划

📋 核心要点

  1. 现有具身智能体基准测试在部分观测和动作失败恢复方面存在不足,无法充分评估智能体的规划能力。
  2. Ego2World将第一人称烹饪视频转化为可执行的符号世界,智能体在部分信念图上规划,无需完全观测真实世界。
  3. 实验表明,动作重叠分数不能准确反映物理状态成功率,信念记忆有助于提高任务完成度并减少重复探索。

📝 摘要(中文)

具身智能体在家庭环境中必须在部分观测下进行规划:它们需要记住物体、跟踪状态变化并在动作失败时恢复。现有的基准测试仅部分地测试了这种能力。第一人称视频数据集捕获了真实的人类活动,但仍然是被动的,而交互式模拟器支持执行,但依赖于合成场景和手工设计的动力学,引入了sim-to-real的差距,并且通常假设完全可观察的状态。我们引入了Ego2World,这是一个可执行的基准,它将第一人称烹饪视频转换为由图转换规则控制的可执行符号世界。Ego2World建立在HD-EPIC之上,从视频注释中导出可重用的转换规则,并在隐藏的符号世界图中执行它们。在评估期间,模拟器维护隐藏的世界图,而智能体仅使用局部观察和执行反馈在其自己的部分信念图上进行规划。这种分离迫使智能体更新记忆并重新规划,而无需观察真实的世界状态。实验表明,动作重叠分数高估了物理状态的成功率,并且持久的信念记忆提高了任务完成度,同时减少了重复的视觉探索——这表明信念维护应该是具身智能体评估的首要目标。

🔬 方法详解

问题定义:现有具身智能体研究面临着两个主要问题。一是现有基准测试无法充分评估智能体在部分观测下进行规划和从错误中恢复的能力。二是现有交互式模拟器依赖于合成场景和手工设计的动力学,存在严重的sim-to-real差距,并且通常假设智能体可以完全观察到环境状态。这些问题限制了智能体在真实世界中的应用。

核心思路:Ego2World的核心思路是将真实的第一人称烹饪视频转化为可执行的符号世界,智能体在这个世界中进行规划和交互。通过这种方式,Ego2World可以利用真实视频数据来构建更逼真的环境,同时避免了完全可观测状态的假设,从而更真实地模拟了智能体在真实世界中面临的挑战。智能体需要维护自身的信念状态,并根据局部观察和执行反馈进行规划,从而提高其在不确定环境中的适应能力。

技术框架:Ego2World的整体框架包括以下几个主要模块:1) 基于HD-EPIC数据集,利用视频注释信息提取可重用的转换规则;2) 构建隐藏的符号世界图,该图表示环境的状态和状态之间的转换关系;3) 智能体在自身的部分信念图上进行规划,该信念图是智能体对环境状态的概率估计;4) 模拟器维护隐藏的世界图,并根据智能体的动作更新环境状态;5) 智能体根据局部观察和执行反馈更新其信念状态并重新规划。

关键创新:Ego2World的关键创新在于它将第一人称视频数据与符号世界表示相结合,从而创建了一个更逼真、更具挑战性的具身智能体评估环境。与现有方法相比,Ego2World不需要完全可观测状态的假设,并且可以利用真实视频数据来构建更复杂的环境动力学。此外,Ego2World还引入了信念状态规划的概念,要求智能体维护自身的信念状态并根据不确定信息进行规划,从而更真实地模拟了智能体在真实世界中面临的挑战。

关键设计:Ego2World的关键设计包括:1) 使用图转换规则来表示环境状态之间的转换关系,这些规则是从视频注释中自动提取的;2) 智能体使用部分信念图进行规划,该信念图是智能体对环境状态的概率估计;3) 模拟器维护隐藏的世界图,并根据智能体的动作更新环境状态,智能体无法直接访问该世界图;4) 使用动作重叠分数和任务完成度来评估智能体的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,动作重叠分数高估了物理状态的成功率,而持久的信念记忆可以显著提高任务完成度,并减少重复的视觉探索。具体来说,使用信念记忆的智能体在任务完成度方面取得了显著提升,同时减少了约15%的视觉探索次数。这些结果表明,信念维护是具身智能体评估的重要指标,也是提高智能体性能的关键因素。

🎯 应用场景

Ego2World的研究成果可以应用于开发更智能、更可靠的具身智能体,例如家庭服务机器人、辅助生活系统等。这些智能体可以在复杂的、不确定的环境中执行任务,例如烹饪、清洁、照顾老人等。通过在Ego2World这样的基准上进行训练和评估,可以提高智能体在真实世界中的适应能力和鲁棒性,从而更好地服务于人类社会。

📄 摘要(原文)

Embodied agents in household environments must plan under partial observation: they need to remember objects, track state changes, and recover when actions fail. Existing benchmarks only partially test this ability. Egocentric video datasets capture realistic human activities but remain passive, while interactive simulators support execution but rely on synthetic scenes and hand-crafted dynamics, introducing a sim-to-real gap and often assuming fully observable state. We introduce Ego2World, an executable benchmark that turns egocentric cooking videos into executable symbolic worlds governed by graph-transition rules. Built on HD-EPIC, Ego2World derives reusable transition rules from video annotations and executes them in a hidden symbolic world graph. During evaluation, the simulator maintains the hidden world graph, while the agent plans over its own partial belief graph using only local observations and execution feedback. This separation forces agents to update memory and replan without observing the true world state. Experiments show that action-overlap scores overestimate physical-state success, and that persistent belief memory improves task completion while reducing repeated visual exploration -- suggesting that belief maintenance should be a first-class target of embodied-agent evaluation.