XEmbodied: A Foundation Model with Enhanced Geometric and Physical Cues for Large-Scale Embodied Environments
作者: Kangan Qian, ChuChu Xie, Yang Zhong, Jingrui Pang, Siwen Jiao, Sicong Jiang, Zilin Huang, Yunlong Wang, Kun Jiang, Mengmeng Yang, Hao Ye, Guanghao Zhang, Hangjun Ye, Guang Chen, Long Chen, Diange Yang
分类: cs.CV, cs.MM, cs.RO
发布日期: 2026-04-20
备注: 15 pages, 5 figures
💡 一句话要点
XEmbodied:增强几何与物理线索的大规模具身环境基础模型
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 具身智能 视觉-语言-动作模型 3D几何感知 物理线索 基础模型 领域自适应 强化学习
📋 核心要点
- 现有VLA模型依赖2D图像-文本预训练的VLM,缺乏几何推理和领域语义,限制了其在复杂具身环境中的应用。
- XEmbodied通过3D适配器集成几何表示,并使用高效适配器提炼物理信号,从而增强VLM的3D几何感知和物理交互能力。
- 实验结果表明,XEmbodied在多个基准测试中显著提高了空间推理、交通语义和具身可供性,并具有良好的泛化能力。
📝 摘要(中文)
视觉-语言-动作(VLA)模型正在推动下一代自主系统发展,但训练此类模型需要在复杂环境中进行可扩展的高质量标注。目前的云端流程依赖于通用的视觉-语言模型(VLM),这些模型由于其2D图像-文本预训练而缺乏几何推理和领域语义。为了解决这种不匹配,我们提出了XEmbodied,一个云端基础模型,赋予VLM固有的3D几何感知能力以及与物理线索(例如,占据栅格、3D框)的交互能力。XEmbodied没有将几何视为辅助输入,而是通过结构化的3D适配器集成几何表示,并使用高效的图像-具身适配器将物理信号提炼到上下文tokens中。通过渐进式领域课程和强化学习后训练,XEmbodied在保持通用能力的同时,在18个公共基准测试中表现出强大的性能。它显著提高了大规模场景挖掘和具身VQA的空间推理、交通语义、具身可供性以及分布外泛化能力。
🔬 方法详解
问题定义:现有视觉-语言-动作(VLA)模型依赖于通用的视觉-语言模型(VLM),而这些VLM通常是基于2D图像和文本进行预训练的。这导致它们在处理需要3D几何推理和物理交互的具身环境时表现不佳。痛点在于缺乏对环境的深度理解和物理规律的感知,限制了其在复杂场景中的应用。
核心思路:XEmbodied的核心思路是通过显式地将3D几何信息和物理线索融入到VLM中,从而增强模型对环境的理解能力。它没有将几何信息作为辅助输入,而是将其作为模型架构的一部分进行集成,并利用高效的适配器来提取和利用物理信号。这样做的目的是让模型能够更好地理解环境的结构、对象之间的关系以及物理交互的可能性。
技术框架:XEmbodied的整体框架包括以下几个主要模块:1) 3D适配器:用于集成3D几何信息,例如占据栅格和3D框。2) 图像-具身适配器:用于提取和提炼物理信号,并将其转化为上下文tokens。3) VLM:作为基础模型,用于处理视觉和语言信息。4) 渐进式领域课程:用于逐步提高模型在不同环境中的性能。5) 强化学习后训练:用于进一步优化模型的动作策略。
关键创新:XEmbodied最重要的技术创新点在于其将3D几何信息和物理线索显式地集成到VLM中。与现有方法不同,它没有将几何信息作为辅助输入,而是通过结构化的3D适配器将其融入到模型架构中。此外,它还使用高效的图像-具身适配器来提取和利用物理信号,从而增强模型对环境的理解能力。
关键设计:XEmbodied的关键设计包括:1) 结构化的3D适配器,用于有效地集成3D几何信息。2) 高效的图像-具身适配器,用于提取和提炼物理信号。3) 渐进式领域课程,用于逐步提高模型在不同环境中的性能。4) 强化学习后训练,用于进一步优化模型的动作策略。具体的参数设置、损失函数和网络结构等细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
XEmbodied在18个公共基准测试中表现出强大的性能,显著提高了空间推理、交通语义、具身可供性以及分布外泛化能力。具体而言,在某些任务上,XEmbodied的性能超过了现有基线模型,并且在处理未见过的环境时表现出更强的鲁棒性。这些实验结果表明,XEmbodied能够有效地利用3D几何信息和物理线索,从而提高VLA模型在复杂具身环境中的性能。
🎯 应用场景
XEmbodied具有广泛的应用前景,包括自动驾驶、机器人导航、虚拟现实、增强现实等领域。它可以用于提高自动驾驶系统的环境感知能力,使机器人能够更好地理解和操作物理世界,并为虚拟现实和增强现实应用提供更逼真的交互体验。该研究的实际价值在于提升了VLA模型在复杂具身环境中的性能,为下一代自主系统的发展奠定了基础。
📄 摘要(原文)
Vision-Language-Action (VLA) models drive next-generation autonomous systems, but training them requires scalable, high-quality annotations from complex environments. Current cloud pipelines rely on generic vision-language models (VLMs) that lack geometric reasoning and domain semantics due to their 2D image-text pretraining. To address this mismatch, we propose XEmbodied, a cloud-side foundation model that endows VLMs with intrinsic 3D geometric awareness and interaction with physical cues (e.g., occupancy grids, 3D boxes). Instead of treating geometry as auxiliary input, XEmbodied integrates geometric representations via a structured 3D Adapter and distills physical signals into context tokens using an Efficient Image-Embodied Adapter. Through progressive domain curriculum and reinforcement learning post-training, XEmbodied preserves general capabilities while demonstrating robust performance across 18 public benchmarks. It significantly improves spatial reasoning, traffic semantics, embodied affordance, and out-of-distribution generalization for large-scale scenario mining and embodied VQA.