Phys2Real: Fusing VLM Priors with Interactive Online Adaptation for Uncertainty-Aware Sim-to-Real Manipulation
作者: Maggie Wang, Stephen Tian, Aiden Swann, Ola Shorinwa, Jiajun Wu, Mac Schwager
分类: cs.RO, cs.AI
发布日期: 2025-10-13
💡 一句话要点
Phys2Real:融合VLM先验与交互式在线自适应,实现不确定性感知的Sim-to-Real操作
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: Sim-to-Real 强化学习 视觉语言模型 物理参数估计 在线自适应
📋 核心要点
- 现有机器人操作的Sim-to-Real迁移面临挑战,尤其是在需要精确动力学的任务中,模拟环境与真实环境的差异导致策略失效。
- Phys2Real融合视觉语言模型(VLM)的先验知识和在线交互数据,通过不确定性感知的自适应方法,优化物理参数估计。
- 实验表明,Phys2Real在平面推移和锤子操作任务中,显著优于领域随机化基线,验证了VLM先验和在线自适应的有效性。
📝 摘要(中文)
直接在现实世界中学习机器人操作策略成本高且耗时。虽然在模拟环境中训练的强化学习(RL)策略提供了一种可扩展的替代方案,但有效的sim-to-real迁移仍然具有挑战性,特别是对于需要精确动力学的任务。为了解决这个问题,我们提出了Phys2Real,一种real-to-sim-to-real的RL流程,它结合了视觉语言模型(VLM)推断的物理参数估计与通过不确定性感知融合进行的交互式自适应。我们的方法包括三个核心组成部分:(1)使用3D高斯溅射进行高保真几何重建,(2)VLM推断的物理参数先验分布,以及(3)从交互数据中进行的在线物理参数估计。Phys2Real以可解释的物理参数为条件,通过基于集成的的不确定性量化,利用在线估计细化VLM预测。在具有不同质心(CoM)的T型块的平面推移任务以及具有偏心质量分布的锤子的任务中,Phys2Real相对于领域随机化基线取得了显著的改进:底部加权T型块的成功率为100% vs 79%,具有挑战性的顶部加权T型块的成功率为57% vs 23%,锤子推移的平均任务完成速度提高了15%。消融研究表明,VLM和交互信息的结合对于成功至关重要。
🔬 方法详解
问题定义:现有的Sim-to-Real方法在处理需要精确动力学的机器人操作任务时,由于模拟环境与真实环境之间的差异,导致策略迁移效果不佳。领域随机化等方法虽然可以缓解这一问题,但难以覆盖所有可能的物理参数组合,且效率较低。因此,如何更有效地利用先验知识和在线交互数据,实现更鲁棒的Sim-to-Real迁移,是本文要解决的核心问题。
核心思路:Phys2Real的核心思路是结合视觉语言模型(VLM)提供的物理参数先验知识,以及通过与真实环境交互获得的在线数据,利用不确定性感知的融合方法,对物理参数进行精确估计。VLM提供初始的物理参数分布,而在线交互数据用于细化和校正这些参数,从而实现更准确的模拟环境建模,最终提升Sim-to-Real的迁移效果。
技术框架:Phys2Real的整体框架包含三个主要模块:1) 高保真几何重建:使用3D高斯溅射技术,从真实世界数据中重建高精度的三维几何模型。2) VLM先验推断:利用视觉语言模型,从图像中推断出物体的物理参数先验分布,例如质心位置、质量分布等。3) 在线物理参数估计:通过与真实环境的交互,收集交互数据,并使用这些数据在线估计物理参数。这三个模块协同工作,实现从真实世界到模拟环境再到真实世界的RL策略迁移。
关键创新:Phys2Real的关键创新在于将视觉语言模型的先验知识与在线交互数据相结合,并利用不确定性量化方法,对物理参数进行精确估计。与传统的领域随机化方法相比,Phys2Real能够更有效地利用先验知识,并根据实际交互数据进行自适应调整,从而提高Sim-to-Real的迁移效果。此外,使用VLM推断物理参数先验分布,减少了对人工标注数据的依赖。
关键设计:在VLM先验推断中,使用了预训练的视觉语言模型,并针对特定任务进行了微调。在线物理参数估计采用了基于集成的(ensemble-based)方法,通过多个模型的预测结果来量化不确定性。在策略训练中,使用了强化学习算法,并以估计的物理参数为条件。损失函数的设计考虑了任务的特定需求,例如,在平面推移任务中,损失函数包括目标位置的距离和推移过程中的稳定性。
🖼️ 关键图片
📊 实验亮点
Phys2Real在平面推移和锤子操作任务中取得了显著的性能提升。在底部加权T型块的推移任务中,Phys2Real的成功率达到了100%,而领域随机化基线的成功率仅为79%。在更具挑战性的顶部加权T型块推移任务中,Phys2Real的成功率为57%,而基线仅为23%。此外,在锤子操作任务中,Phys2Real的平均任务完成速度比基线提高了15%。这些结果表明,Phys2Real能够有效地提高Sim-to-Real的迁移效果。
🎯 应用场景
Phys2Real具有广泛的应用前景,例如在工业机器人、家庭服务机器人等领域,可以用于提高机器人操作的鲁棒性和适应性。通过结合VLM先验和在线自适应,机器人能够更好地理解和适应真实世界的物理特性,从而完成更复杂的任务。未来,该方法有望应用于更广泛的机器人操作任务,并推动机器人智能的发展。
📄 摘要(原文)
Learning robotic manipulation policies directly in the real world can be expensive and time-consuming. While reinforcement learning (RL) policies trained in simulation present a scalable alternative, effective sim-to-real transfer remains challenging, particularly for tasks that require precise dynamics. To address this, we propose Phys2Real, a real-to-sim-to-real RL pipeline that combines vision-language model (VLM)-inferred physical parameter estimates with interactive adaptation through uncertainty-aware fusion. Our approach consists of three core components: (1) high-fidelity geometric reconstruction with 3D Gaussian splatting, (2) VLM-inferred prior distributions over physical parameters, and (3) online physical parameter estimation from interaction data. Phys2Real conditions policies on interpretable physical parameters, refining VLM predictions with online estimates via ensemble-based uncertainty quantification. On planar pushing tasks of a T-block with varying center of mass (CoM) and a hammer with an off-center mass distribution, Phys2Real achieves substantial improvements over a domain randomization baseline: 100% vs 79% success rate for the bottom-weighted T-block, 57% vs 23% in the challenging top-weighted T-block, and 15% faster average task completion for hammer pushing. Ablation studies indicate that the combination of VLM and interaction information is essential for success. Project website: https://phys2real.github.io/ .