MotionAnymesh: Physics-Grounded Articulation for Simulation-Ready Digital Twins
作者: WenBo Xu, Liu Liu, Li Zhang, Dan Guo, RuoNan Liu
分类: cs.RO, cs.CV
发布日期: 2026-03-13
备注: 5 figures
💡 一句话要点
MotionAnymesh:提出基于物理的关节运动框架,为仿真环境构建即用数字孪生
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱四:生成式动作 (Generative Motion) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 数字孪生 关节运动 物理仿真 零样本学习 视觉-语言模型 机器人 部件分割
📋 核心要点
- 现有零样本方法在将静态3D网格转换为可交互的关节资产时,缺乏物理基础,导致运动学幻觉和网格互穿问题。
- MotionAnymesh通过运动学感知的部件分割和几何-物理联合估计,将静态网格转换为可用于仿真的、具有物理合理性的数字孪生。
- 实验表明,MotionAnymesh在几何精度和物理可执行性上显著优于现有方法,为下游应用提供可靠资产。
📝 摘要(中文)
将静态3D网格转换为可交互的关节资产对于具身智能和机器人仿真是至关重要的。然而,现有的零样本流程在处理复杂资产时面临挑战,主要原因是缺乏物理基础。具体来说,无物理基础的视觉-语言模型(VLMs)经常出现运动学幻觉,而无约束的关节估计不可避免地导致物理仿真过程中出现灾难性的网格互穿。为了弥合这一差距,我们提出了MotionAnymesh,一个自动化的零样本框架,可以无缝地将非结构化的静态网格转换为可用于仿真的数字孪生。我们的方法采用了一种运动学感知的部件分割模块,该模块利用显式的SP4D物理先验来约束VLM推理,从而有效地消除运动学幻觉。此外,我们引入了一种几何-物理联合估计流程,该流程结合了稳健的类型感知初始化和物理约束的轨迹优化,以严格保证无碰撞的关节运动。大量的实验表明,MotionAnymesh在几何精度和动态物理可执行性方面均显著优于最先进的基线方法,为下游应用提供了高度可靠的资产。
🔬 方法详解
问题定义:论文旨在解决将静态3D网格自动转换为可用于物理仿真的、具有关节运动能力的数字孪生的问题。现有方法,特别是零样本方法,在处理复杂物体时,由于缺乏物理约束,容易产生运动学上的不合理性(例如,部件之间的穿透)和关节运动的物理不可行性,导致仿真失败。
核心思路:MotionAnymesh的核心思路是通过引入物理先验知识来约束整个流程,从而保证生成的数字孪生在运动学和动力学上都是合理的。具体来说,它利用SP4D物理先验来指导部件分割,并采用物理约束的轨迹优化来保证关节运动的无碰撞性。
技术框架:MotionAnymesh框架包含两个主要模块:1) 运动学感知的部件分割模块:该模块利用视觉-语言模型(VLM)结合SP4D物理先验进行部件分割,从而消除运动学幻觉。2) 几何-物理联合估计流程:该流程首先进行类型感知的关节初始化,然后通过物理约束的轨迹优化来保证关节运动的无碰撞性。
关键创新:MotionAnymesh的关键创新在于将物理先验知识显式地融入到零样本的关节运动生成流程中。这与现有方法不同,现有方法通常依赖于无约束的VLM或几何优化,容易产生不合理的运动。通过运动学感知的部件分割和物理约束的轨迹优化,MotionAnymesh能够生成更可靠、更逼真的数字孪生。
关键设计:在运动学感知的部件分割模块中,SP4D物理先验被用来约束VLM的推理过程,从而避免产生不合理的部件分割结果。在几何-物理联合估计流程中,物理约束的轨迹优化通过最小化碰撞惩罚项和关节力矩来保证关节运动的无碰撞性和物理合理性。具体的损失函数和优化算法的细节未知,需要参考论文原文。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MotionAnymesh在几何精度和动态物理可执行性方面均显著优于现有方法。具体来说,MotionAnymesh能够有效地消除运动学幻觉,并生成无碰撞的关节运动。与最先进的基线方法相比,MotionAnymesh在物理仿真中的成功率提高了显著比例(具体数值未知,需要参考论文原文),证明了其在生成高质量、物理合理的数字孪生方面的优势。
🎯 应用场景
MotionAnymesh具有广泛的应用前景,包括机器人仿真、虚拟现实、游戏开发和数字孪生等领域。它可以用于快速创建各种可交互的3D资产,从而加速机器人算法的开发和测试,提升虚拟现实体验的真实感,并为数字孪生提供更精确的物理模型。该技术能够降低创建高质量、物理合理的3D资产的成本,并推动相关领域的发展。
📄 摘要(原文)
Converting static 3D meshes into interactable articulated assets is crucial for embodied AI and robotic simulation. However, existing zero-shot pipelines struggle with complex assets due to a critical lack of physical grounding. Specifically, ungrounded Vision-Language Models (VLMs) frequently suffer from kinematic hallucinations, while unconstrained joint estimation inevitably leads to catastrophic mesh inter-penetration during physical simulation. To bridge this gap, we propose MotionAnymesh, an automated zero-shot framework that seamlessly transforms unstructured static meshes into simulation-ready digital twins. Our method features a kinematic-aware part segmentation module that grounds VLM reasoning with explicit SP4D physical priors, effectively eradicating kinematic hallucinations. Furthermore, we introduce a geometry-physics joint estimation pipeline that combines robust type-aware initialization with physics-constrained trajectory optimization to rigorously guarantee collision-free articulation. Extensive experiments demonstrate that MotionAnymesh significantly outperforms state-of-the-art baselines in both geometric precision and dynamic physical executability, providing highly reliable assets for downstream applications.