SceMoS: Scene-Aware 3D Human Motion Synthesis by Planning with Geometry-Grounded Tokens
作者: Anindita Ghosh, Vladislav Golyanik, Taku Komura, Philipp Slusallek, Christian Theobalt, Rishabh Dabral
分类: cs.CV
发布日期: 2026-02-24
备注: 13 pages, 6 figures, 4 tables
💡 一句话要点
SceMoS:利用几何约束Token规划的场景感知3D人体运动合成
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱四:生成式动作 (Generative Motion) 支柱五:交互与反应 (Interaction & Reaction) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 3D人体运动合成 场景感知 几何约束 鸟瞰图 高度图
📋 核心要点
- 现有方法在真实场景中合成文本驱动的3D人体运动时,难以兼顾语义意图和物理可行性,且依赖高计算成本的3D场景数据。
- SceMoS利用2D场景信息,解耦全局规划和局部执行,通过鸟瞰图进行全局推理,局部高度图保证物理约束,提升效率。
- SceMoS在TRUMANS基准测试中达到SOTA,在运动真实感和接触精度上均有提升,并显著降低了场景编码的参数量。
📝 摘要(中文)
本文提出SceMoS,一个场景感知的运动合成框架,证明了结构化的2D场景表示可以作为物理约束运动合成中完整3D监督的强大替代方案。SceMoS通过轻量级的2D线索将全局规划与局部执行解耦,依赖于:(1)一个文本条件自回归全局运动规划器,它在从场景的升高角渲染的鸟瞰图(BEV)图像上运行,并使用DINOv2特征进行编码,作为场景表示;(2)一个通过条件VQ-VAE训练的几何约束运动Token生成器,它使用2D局部场景高度图,从而将表面物理直接嵌入到离散词汇表中。这种2D分解实现了效率和保真度之间的平衡:BEV语义捕获空间布局和全局推理的可用性,而局部高度图在没有完整3D体推理的情况下强制执行细粒度的物理依附。SceMoS在TRUMANS基准测试中实现了最先进的运动真实感和接触精度,将场景编码的可训练参数数量减少了50%以上,表明2D场景线索可以有效地约束3D人与场景的交互。
🔬 方法详解
问题定义:现有方法在进行场景感知的3D人体运动合成时,需要同时学习高层语义规划和底层接触推理,计算复杂度高,并且依赖于点云或体素占据网格等计算成本高的3D场景数据。这限制了其在复杂和大规模场景中的应用。
核心思路:SceMoS的核心思路是利用轻量级的2D场景表示来替代高成本的3D场景数据,从而在保证运动真实性和物理可行性的前提下,提高运动合成的效率。通过解耦全局规划和局部执行,分别使用鸟瞰图(BEV)和局部高度图来处理全局语义推理和局部物理约束。
技术框架:SceMoS框架包含两个主要模块:全局运动规划器和几何约束运动Token生成器。全局运动规划器是一个文本条件自回归模型,它以鸟瞰图(BEV)作为输入,预测全局运动轨迹。BEV图像由DINOv2特征编码。几何约束运动Token生成器是一个条件VQ-VAE,它以局部场景高度图作为输入,生成离散的运动Token,这些Token编码了表面物理信息。这两个模块协同工作,实现场景感知的3D人体运动合成。
关键创新:SceMoS的关键创新在于使用2D场景表示来约束3D人体运动合成。与现有方法相比,SceMoS避免了使用高成本的3D场景数据,从而显著提高了效率。此外,SceMoS通过解耦全局规划和局部执行,实现了更好的运动真实性和物理可行性。
关键设计:SceMoS使用DINOv2特征提取器来编码鸟瞰图(BEV),从而捕获场景的语义信息。局部高度图用于编码场景的几何信息,并用于训练几何约束运动Token生成器。条件VQ-VAE用于学习离散的运动Token,这些Token编码了表面物理信息。损失函数包括运动预测损失、接触损失和VQ-VAE的重构损失。
🖼️ 关键图片
📊 实验亮点
SceMoS在TRUMANS基准测试中取得了state-of-the-art的结果,在运动真实感和接触精度上均优于现有方法。同时,SceMoS将场景编码的可训练参数数量减少了50%以上,表明了2D场景线索在3D人体运动合成中的有效性。实验结果验证了SceMoS在效率和保真度之间的良好平衡。
🎯 应用场景
SceMoS可应用于虚拟现实、游戏开发、机器人仿真等领域。该技术能够生成与场景交互自然、符合物理规律的3D人体运动,提升用户体验。未来,SceMoS有望应用于自动驾驶、智能监控等领域,实现更智能的人机交互。
📄 摘要(原文)
Synthesizing text-driven 3D human motion within realistic scenes requires learning both semantic intent ("walk to the couch") and physical feasibility (e.g., avoiding collisions). Current methods use generative frameworks that simultaneously learn high-level planning and low-level contact reasoning, and rely on computationally expensive 3D scene data such as point clouds or voxel occupancy grids. We propose SceMoS, a scene-aware motion synthesis framework that shows that structured 2D scene representations can serve as a powerful alternative to full 3D supervision in physically grounded motion synthesis. SceMoS disentangles global planning from local execution using lightweight 2D cues and relying on (1) a text-conditioned autoregressive global motion planner that operates on a bird's-eye-view (BEV) image rendered from an elevated corner of the scene, encoded with DINOv2 features, as the scene representation, and (2) a geometry-grounded motion tokenizer trained via a conditional VQ-VAE, that uses 2D local scene heightmap, thus embedding surface physics directly into a discrete vocabulary. This 2D factorization reaches an efficiency-fidelity trade-off: BEV semantics capture spatial layout and affordance for global reasoning, while local heightmaps enforce fine-grained physical adherence without full 3D volumetric reasoning. SceMoS achieves state-of-the-art motion realism and contact accuracy on the TRUMANS benchmark, reducing the number of trainable parameters for scene encoding by over 50%, showing that 2D scene cues can effectively ground 3D human-scene interaction.