SIM1: Physics-Aligned Simulator as Zero-Shot Data Scaler in Deformable Worlds
作者: Yunsong Zhou, Hangxu Liu, Xuekun Jiang, Xing Shen, Yuanzhen Zhou, Hui Wang, Baole Fang, Yang Tian, Mulin Yu, Qiaojun Yu, Li Ma, Hengjie Li, Hanqing Wang, Jia Zeng, Jiangmiao Pang
分类: cs.RO, cs.AI, cs.CV
发布日期: 2026-04-09 (更新: 2026-04-10)
备注: Website: https://internrobotics.github.io/sim1.github.io/
💡 一句话要点
SIM1:物理对齐的模拟器作为可变形世界中的零样本数据扩展器
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 可变形物体操作 物理对齐仿真 Sim-to-Real 扩散模型 机器人学习
📋 核心要点
- 现有sim-to-real方法在可变形物体操作中面临挑战,刚体抽象导致仿真与真实环境不匹配,影响策略学习。
- SIM1通过物理对齐的real-to-sim-to-real流程,将仿真与物理世界联系起来,生成高质量的合成数据。
- 实验表明,使用SIM1生成的合成数据训练的策略,在真实世界中表现出良好的零样本性能和泛化能力。
📝 摘要(中文)
在具身学习中,机器人对可变形物体的操作是一个数据密集型领域,其中形状、接触和拓扑的协同演化远远超过了刚体的变化。虽然仿真有望缓解真实世界数据采集的成本,但目前流行的sim-to-real流程仍然植根于刚体抽象,导致几何形状不匹配、脆弱的软动力学以及不适合布料交互的运动原语。我们认为,仿真失败的原因不是因为它是合成的,而是因为它没有实际依据。为了解决这个问题,我们引入了SIM1,一个物理对齐的real-to-sim-to-real数据引擎,将仿真建立在物理世界的基础上。给定有限的演示,该系统将场景数字化为度量一致的孪生体,通过弹性建模校准可变形动力学,并通过基于扩散的轨迹生成和质量过滤来扩展行为。该流程将稀疏的观察结果转化为具有接近演示保真度的可扩展合成监督。实验表明,在纯合成数据上训练的策略在1:15的等效比率下实现了与真实数据基线相当的性能,同时在真实世界部署中提供了90%的零样本成功率和50%的泛化增益。这些结果验证了物理对齐的仿真作为可变形操作的可扩展监督,以及数据高效策略学习的实用途径。
🔬 方法详解
问题定义:现有方法在处理可变形物体操作时,依赖于刚体抽象的仿真环境,导致仿真与真实环境存在差异。这种差异使得在仿真环境中训练的策略难以直接迁移到真实世界,限制了机器人操作的性能和泛化能力。痛点在于如何构建一个更真实的仿真环境,从而减少sim-to-real的差距。
核心思路:SIM1的核心思路是将仿真环境与物理世界对齐。通过数字化真实场景,并利用弹性建模校准可变形物体的动力学参数,从而构建一个更接近真实世界的仿真环境。然后,利用该仿真环境生成大量的合成数据,用于训练机器人操作策略。
技术框架:SIM1包含以下几个主要模块:1) 场景数字化:将真实场景数字化为度量一致的孪生体。2) 动力学校准:通过弹性建模校准可变形物体的动力学参数。3) 轨迹生成:利用基于扩散的轨迹生成方法,生成多样化的操作轨迹。4) 质量过滤:对生成的轨迹进行质量评估和过滤,选择高质量的轨迹用于训练。
关键创新:SIM1的关键创新在于物理对齐的仿真环境构建方法。通过数字化真实场景和校准动力学参数,使得仿真环境更接近真实世界,从而减少了sim-to-real的差距。此外,基于扩散的轨迹生成方法可以生成多样化的操作轨迹,提高了策略的泛化能力。
关键设计:SIM1使用弹性建模来校准可变形物体的动力学参数,例如杨氏模量和泊松比。基于扩散的轨迹生成方法使用了一个扩散模型,该模型学习从噪声中生成操作轨迹。质量过滤模块使用一个预训练的奖励模型来评估轨迹的质量,并选择奖励较高的轨迹用于训练。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用SIM1生成的纯合成数据训练的策略,在真实世界中实现了90%的零样本成功率,并且在泛化能力上提升了50%。与使用真实数据训练的基线策略相比,SIM1在1:15的数据量下达到了相当的性能,显著降低了数据采集成本。
🎯 应用场景
该研究成果可应用于各种需要机器人操作可变形物体的场景,例如服装整理、医疗手术、食品加工等。通过使用SIM1生成的大量合成数据,可以降低机器人策略学习的成本,提高机器人的操作性能和泛化能力,加速机器人在这些领域的应用。
📄 摘要(原文)
Robotic manipulation with deformable objects represents a data-intensive regime in embodied learning, where shape, contact, and topology co-evolve in ways that far exceed the variability of rigids. Although simulation promises relief from the cost of real-world data acquisition, prevailing sim-to-real pipelines remain rooted in rigid-body abstractions, producing mismatched geometry, fragile soft dynamics, and motion primitives poorly suited for cloth interaction. We posit that simulation fails not for being synthetic, but for being ungrounded. To address this, we introduce SIM1, a physics-aligned real-to-sim-to-real data engine that grounds simulation in the physical world. Given limited demonstrations, the system digitizes scenes into metric-consistent twins, calibrates deformable dynamics through elastic modeling, and expands behaviors via diffusion-based trajectory generation with quality filtering. This pipeline transforms sparse observations into scaled synthetic supervision with near-demonstration fidelity. Experiments show that policies trained on purely synthetic data achieve parity with real-data baselines at a 1:15 equivalence ratio, while delivering 90% zero-shot success and 50% generalization gains in real-world deployment. These results validate physics-aligned simulation as scalable supervision for deformable manipulation and a practical pathway for data-efficient policy learning.