3D Generation for Embodied AI and Robotic Simulation: A Survey

作者: Tianwei Ye, Yifan Mao, Minwen Liao, Jian Liu, Chunchao Guo, Dazhao Du, Quanxin Shou, Fangqi Zhu, Song Guo

分类: cs.RO, cs.CV

发布日期: 2026-04-29

备注: 26 pages, 11 figures, 8 tables. Project Page: https://3dgen4robot.github.io

💡 一句话要点

针对具身智能与机器人仿真的3D生成技术综述，弥合虚拟与现实差距。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 3D生成 具身智能 机器人仿真 Sim2Real 物理属性建模

📋 核心要点

现有3D生成方法在具身智能应用中面临挑战，如缺乏物理属性、交互能力和仿真真实性。
该综述围绕数据生成、仿真环境和Sim2Real桥梁三个角色，系统性地组织了3D生成的相关文献。
研究指出，当前3D生成正从追求视觉真实性转向关注交互就绪性，并分析了现有瓶颈。

📝 摘要（中文）

具身智能和机器人系统越来越依赖于可扩展、多样化和物理上合理的3D内容，以进行基于仿真的训练和实际部署。虽然3D生成建模已经快速发展，但具身应用提出了远超视觉真实性的要求：生成的对象必须具有运动学结构和材料属性，场景必须支持交互和任务执行，并且生成的内容必须弥合仿真和现实之间的差距。本综述首次针对具身智能的3D生成进行了调研，并围绕3D生成在具身系统中扮演的三个角色组织了文献。在“数据生成器”中，3D生成产生可用于仿真的对象和资产，包括铰接的、物理上合理的和可变形的内容，用于下游交互；在“仿真环境”中，它构建交互式和面向任务的世界，涵盖结构感知、可控和代理场景生成；在“Sim2Real桥梁”中，它支持数字孪生重建、数据增强和合成演示，用于下游机器人学习和真实世界迁移。我们还表明，该领域正在从视觉真实性转向交互就绪性，并且我们确定了主要的瓶颈，包括有限的物理注释、几何质量和物理有效性之间的差距、分散的评估以及持续存在的sim-to-real鸿沟，这些瓶颈必须解决，3D生成才能成为具身智能的可靠基础。

🔬 方法详解

问题定义：现有3D生成方法主要关注视觉真实性，忽略了具身智能应用中对物理属性、交互能力和仿真真实性的需求。这导致生成的3D内容难以直接应用于机器人仿真和真实世界部署，阻碍了具身智能的发展。现有方法在物理属性建模、交互场景构建和Sim2Real迁移方面存在明显不足。

核心思路：该综述的核心思路是将3D生成技术与具身智能应用相结合，从具身智能的需求出发，重新审视和组织现有的3D生成方法。通过分析3D生成在具身智能系统中扮演的不同角色（数据生成器、仿真环境、Sim2Real桥梁），揭示了现有方法的局限性，并指出了未来的发展方向。

技术框架：该综述没有提出新的技术框架，而是对现有文献进行了系统性的梳理和分类。它将3D生成技术在具身智能中的应用分为三个主要角色：1) 数据生成器：生成可用于仿真的3D对象和资产，包括铰接的、物理上合理的和可变形的内容；2) 仿真环境：构建交互式和面向任务的3D世界，涵盖结构感知、可控和代理场景生成；3) Sim2Real桥梁：支持数字孪生重建、数据增强和合成演示，用于机器人学习和真实世界迁移。

关键创新：该综述的主要创新在于其视角和组织方式。它首次将3D生成技术与具身智能应用联系起来，并从具身智能的需求出发，对现有方法进行了全面的分析和评估。这种以应用为导向的视角有助于更好地理解3D生成技术在具身智能中的作用和价值，并为未来的研究提供了新的思路。

关键设计：该综述没有涉及具体的技术细节，而是侧重于对现有方法的分类和分析。它强调了物理属性建模、交互场景构建和Sim2Real迁移的重要性，并指出了现有方法在这些方面的不足。此外，该综述还强调了评估指标的重要性，并呼吁建立更加全面和统一的评估体系。

🖼️ 关键图片

📊 实验亮点

该综述系统性地分析了3D生成技术在具身智能中的应用，指出了现有方法的瓶颈，并提出了未来的研究方向。它强调了从视觉真实性向交互就绪性的转变，并呼吁关注物理属性建模、交互场景构建和Sim2Real迁移等关键问题。该综述为研究人员提供了一个全面的参考，有助于推动3D生成技术在具身智能领域的应用。

🎯 应用场景

该研究成果对机器人、自动驾驶、虚拟现实等领域具有重要应用价值。通过改进3D生成技术，可以为这些领域提供更逼真、更具交互性的仿真环境，从而加速算法开发和模型训练，降低研发成本，并提高系统的鲁棒性和泛化能力。未来，该研究有望推动具身智能的快速发展。

📄 摘要（原文）

Embodied AI and robotic systems increasingly depend on scalable, diverse, and physically grounded 3D content for simulation-based training and real-world deployment. While 3D generative modeling has advanced rapidly, embodied applications impose requirements far beyond visual realism: generated objects must carry kinematic structure and material properties, scenes must support interaction and task execution, and the resulting content must bridge the gap between simulation and reality. This survey presents the first survey of 3D generation for embodied AI and organizes the literature around three roles that 3D generation plays in embodied systems. In \emph{Data Generator}, 3D generation produces simulation-ready objects and assets, including articulated, physically grounded, and deformable content for downstream interaction; in \emph{Simulation Environments}, it constructs interactive and task-oriented worlds, spanning structure-aware, controllable, and agentic scene generation; and in \emph{Sim2Real Bridge}, it supports digital twin reconstruction, data augmentation, and synthetic demonstrations for downstream robot learning and real-world transfer. We also show that the field is shifting from visual realism toward interaction readiness, and we identify the main bottlenecks, including limited physical annotations, the gap between geometric quality and physical validity, fragmented evaluation, and the persistent sim-to-real divide, that must be addressed for 3D generation to become a dependable foundation for embodied intelligence. Our project page is at https://3dgen4robot.github.io.

3D Generation for Embodied AI and Robotic Simulation: A Survey

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理