A Survey: Learning Embodied Intelligence from Physical Simulators and World Models

📄 arXiv: 2507.00917v3 📥 PDF

作者: Xiaoxiao Long, Qingrui Zhao, Kaiwen Zhang, Zihao Zhang, Dingrui Wang, Yumeng Liu, Zhengjie Shu, Yi Lu, Shouzheng Wang, Xinzhe Wei, Wei Li, Wei Yin, Yao Yao, Jia Pan, Qiu Shen, Ruigang Yang, Xun Cao, Qionghai Dai

分类: cs.RO

发布日期: 2025-07-01 (更新: 2025-09-03)

备注: Update with recent progresses. 49pages, 25figures, 6tables, github repository avalible in https://github.com/NJU3DV-LoongGroup/Embodied-World-Models-Survey

🔗 代码/项目: GITHUB


💡 一句话要点

综述:基于物理仿真器与世界模型的具身智能学习研究进展

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 具身智能 物理仿真器 世界模型 机器人学习 人工智能 自主导航 强化学习

📋 核心要点

  1. 现有具身智能方法在泛化性和适应性方面存在不足,难以应对真实世界复杂多变的环境。
  2. 该综述探讨了物理仿真器和世界模型在提升具身智能体自主性、适应性和泛化能力方面的互补作用。
  3. 通过分析当前进展和挑战,为构建更强大、更通用的具身智能系统提供全面的视角。

📝 摘要(中文)

人工智能通用性(AGI)的追求已将具身智能推到了机器人研究的前沿。具身智能侧重于能够在物理世界中感知、推理和行动的智能体。实现强大的具身智能不仅需要先进的感知和控制能力,还需要将抽象认知扎根于现实世界的交互中。物理仿真器和世界模型是实现这一目标的两项基础技术。物理仿真器为训练和评估机器人智能体提供了可控、高保真的环境,从而能够安全高效地开发复杂行为。相比之下,世界模型使机器人能够对其周围环境进行内部表征,从而实现超越直接感官输入的预测性规划和自适应决策。本综述系统地回顾了通过集成物理仿真器和世界模型来学习具身人工智能的最新进展。我们分析了它们在增强智能机器人的自主性、适应性和泛化能力方面的互补作用,并讨论了外部仿真和内部建模之间在弥合模拟训练和现实世界部署之间差距的相互作用。通过综合当前进展并识别开放性挑战,本综述旨在为实现更强大和更具通用性的具身人工智能系统提供全面的视角。我们还维护一个活跃的存储库,其中包含最新的文献和开源项目,网址为https://github.com/NJU3DV-LoongGroup/Embodied-World-Models-Survey。

🔬 方法详解

问题定义:具身智能旨在使智能体能够在物理世界中感知、推理和行动。现有方法在真实世界部署中面临泛化性差、适应性弱等问题。主要痛点在于难以将模拟环境训练的策略有效迁移到真实环境,以及缺乏对环境变化的鲁棒性。

核心思路:该综述的核心思路是探讨如何通过结合物理仿真器和世界模型来提升具身智能体的性能。物理仿真器提供安全高效的训练环境,而世界模型则赋予智能体对环境的内部表征和预测能力。通过二者的结合,可以弥合模拟与现实之间的差距,提高智能体的泛化能力和适应性。

技术框架:该综述首先介绍了具身智能的基本概念和挑战,然后分别深入探讨了物理仿真器和世界模型在具身智能中的应用。接着,分析了二者如何协同工作,提升智能体的自主性、适应性和泛化能力。最后,讨论了当前研究的局限性和未来发展方向。

关键创新:该综述的关键创新在于系统性地分析了物理仿真器和世界模型在具身智能中的互补作用。它不仅回顾了现有方法,还深入探讨了如何将二者有效结合,以解决具身智能面临的挑战。此外,该综述还指出了当前研究的局限性,并提出了未来研究方向。

关键设计:该综述没有提出新的算法或模型,而是对现有研究进行了梳理和分析。它关注的关键设计包括:物理仿真器的保真度、世界模型的表征能力、以及如何设计有效的训练策略,使智能体能够在模拟环境中学习到可迁移的策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该综述系统地回顾了近年来基于物理仿真器和世界模型的具身智能研究进展,并分析了二者在提升智能体性能方面的互补作用。通过对现有方法的梳理和分析,为未来的研究方向提供了指导。该综述还维护了一个活跃的开源项目库,方便研究人员获取最新的文献和代码。

🎯 应用场景

该研究对机器人、自动驾驶、智能制造等领域具有重要的应用价值。通过结合物理仿真器和世界模型,可以开发出更智能、更自主的机器人系统,从而提高生产效率、降低成本,并拓展机器人的应用范围。例如,可以用于开发能够在复杂环境中自主导航的机器人,或者用于训练能够在各种场景下执行任务的自动驾驶系统。

📄 摘要(原文)

The pursuit of artificial general intelligence (AGI) has placed embodied intelligence at the forefront of robotics research. Embodied intelligence focuses on agents capable of perceiving, reasoning, and acting within the physical world. Achieving robust embodied intelligence requires not only advanced perception and control, but also the ability to ground abstract cognition in real-world interactions. Two foundational technologies, physical simulators and world models, have emerged as critical enablers in this quest. Physical simulators provide controlled, high-fidelity environments for training and evaluating robotic agents, allowing safe and efficient development of complex behaviors. In contrast, world models empower robots with internal representations of their surroundings, enabling predictive planning and adaptive decision-making beyond direct sensory input. This survey systematically reviews recent advances in learning embodied AI through the integration of physical simulators and world models. We analyze their complementary roles in enhancing autonomy, adaptability, and generalization in intelligent robots, and discuss the interplay between external simulation and internal modeling in bridging the gap between simulated training and real-world deployment. By synthesizing current progress and identifying open challenges, this survey aims to provide a comprehensive perspective on the path toward more capable and generalizable embodied AI systems. We also maintain an active repository that contains up-to-date literature and open-source projects at https://github.com/NJU3DV-LoongGroup/Embodied-World-Models-Survey.