SoMA: A Real-to-Sim Neural Simulator for Robotic Soft-body Manipulation
作者: Mu Huang, Hui Wang, Kerui Ren, Linning Xu, Yunsong Zhou, Mulin Yu, Bo Dai, Jiangmiao Pang
分类: cs.RO, cs.AI, cs.CV, physics.app-ph
发布日期: 2026-02-02
备注: Project page: https://city-super.github.io/SoMA/
💡 一句话要点
SoMA:用于机器人软体操作的真实到仿真神经模拟器
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 软体操作 神经模拟 3D高斯溅射 机器人仿真 真实到仿真
📋 核心要点
- 现有软体机器人仿真方法依赖预定义物理模型或数据驱动动力学,缺乏机器人控制,导致精度、稳定性和泛化性受限。
- SoMA提出一种基于3D高斯溅射的神经模拟器,在统一的潜在空间中建模可变形动力学、环境力和机器人动作。
- 实验表明,SoMA在真实机器人操作的重模拟精度和泛化性上提升了20%,能够稳定模拟长时程布料折叠等复杂任务。
📝 摘要(中文)
在复杂的交互下模拟可变形物体仍然是真实到仿真机器人操作的一个根本挑战,其动力学由环境影响和机器人动作共同驱动。现有的模拟器依赖于预定义的物理或数据驱动的动力学,而没有机器人条件控制,限制了准确性、稳定性和泛化性。本文提出了SoMA,一种用于软体操作的3D高斯溅射模拟器。SoMA在统一的潜在神经空间中耦合了可变形动力学、环境力和机器人关节动作,用于端到端的真实到仿真模拟。通过学习到的高斯溅射建模交互,实现了可控、稳定的长时程操作,并推广到超出观察到的轨迹,而无需预定义的物理模型。SoMA提高了真实世界机器人操作的重模拟精度和泛化能力20%,从而能够稳定地模拟复杂的任务,如长时程的布料折叠。
🔬 方法详解
问题定义:现有机器人软体操作仿真方法主要面临三个痛点:一是依赖预定义的物理模型,难以准确捕捉复杂交互;二是数据驱动方法缺乏对机器人动作的显式控制;三是泛化能力不足,难以适应未见过的场景和任务。这些问题限制了机器人软体操作在实际应用中的部署。
核心思路:SoMA的核心思路是将软体动力学、环境力和机器人动作统一到一个可学习的潜在神经空间中进行建模。通过学习高斯溅射表示,能够更有效地捕捉软体的形变和交互,并实现对机器人动作的精确控制。这种端到端的学习方式避免了手动设计物理模型的复杂性,并提高了泛化能力。
技术框架:SoMA的整体框架包含三个主要模块:1) 3D高斯溅射表示模块,用于将软体表示为一组高斯分布;2) 动力学预测模块,使用神经网络预测高斯溅射的运动轨迹,该网络以当前状态和机器人动作为输入;3) 渲染模块,将预测的高斯溅射渲染成图像,用于可视化和评估。整个框架采用端到端的方式进行训练,通过最小化真实数据和仿真数据之间的差异来优化模型参数。
关键创新:SoMA的关键创新在于:1) 使用3D高斯溅射作为软体的表示,相比于传统的网格或点云表示,高斯溅射能够更有效地捕捉软体的形变和交互;2) 将软体动力学、环境力和机器人动作统一到一个可学习的潜在神经空间中进行建模,实现了对机器人动作的精确控制;3) 采用端到端的学习方式,避免了手动设计物理模型的复杂性,并提高了泛化能力。
关键设计:SoMA的关键设计包括:1) 使用MLP作为动力学预测模块,输入包括当前高斯溅射的状态和机器人关节角度,输出是下一时刻高斯溅射的状态变化;2) 损失函数包括重投影损失和正则化损失,重投影损失用于最小化真实数据和仿真数据之间的差异,正则化损失用于约束高斯溅射的形状和运动;3) 训练数据包括真实机器人操作的视频和对应的机器人关节角度。
🖼️ 关键图片
📊 实验亮点
SoMA在真实机器人操作的重模拟任务中,相比于基线方法,精度提升了20%。在长时程布料折叠任务中,SoMA能够稳定地模拟整个折叠过程,而基线方法则容易出现崩溃。这些实验结果表明,SoMA在软体操作仿真方面具有显著的优势。
🎯 应用场景
SoMA在机器人软体操作领域具有广泛的应用前景,例如服装折叠、医疗手术、食品加工等。通过高精度、高稳定性的仿真,可以加速算法开发和策略优化,降低实际实验的成本和风险。此外,SoMA还可以用于生成合成数据,用于训练更鲁棒的机器人控制策略,提高机器人在复杂环境中的适应能力。
📄 摘要(原文)
Simulating deformable objects under rich interactions remains a fundamental challenge for real-to-sim robot manipulation, with dynamics jointly driven by environmental effects and robot actions. Existing simulators rely on predefined physics or data-driven dynamics without robot-conditioned control, limiting accuracy, stability, and generalization. This paper presents SoMA, a 3D Gaussian Splat simulator for soft-body manipulation. SoMA couples deformable dynamics, environmental forces, and robot joint actions in a unified latent neural space for end-to-end real-to-sim simulation. Modeling interactions over learned Gaussian splats enables controllable, stable long-horizon manipulation and generalization beyond observed trajectories without predefined physical models. SoMA improves resimulation accuracy and generalization on real-world robot manipulation by 20%, enabling stable simulation of complex tasks such as long-horizon cloth folding.