Grounding Sim-to-Real Generalization in Dexterous Manipulation: An Empirical Study with Vision-Language-Action Models

📄 arXiv: 2603.22876v1 📥 PDF

作者: Ruixing Jin, Zicheng Zhu, Ruixiang Ouyang, Sheng Xu, Bo Yue, Zhizheng Wu, Guiliang Liu

分类: cs.RO, cs.AI

发布日期: 2026-03-24


💡 一句话要点

基于视觉-语言-动作模型的灵巧操作Sim-to-Real泛化经验研究

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Sim-to-Real 灵巧操作 视觉-语言-动作模型 领域随机化 强化学习

📋 核心要点

  1. 现有灵巧操作通用策略学习依赖大规模数据集,真实数据采集成本高,仿真数据存在Sim-to-Real差距。
  2. 本文从多维度分析Sim-to-Real泛化的决定因素,包括领域随机化、渲染真实度、物理建模和强化学习更新。
  3. 设计综合评估协议,包含背景、光照、干扰等因素,通过大量真实实验,为Sim-to-Real迁移提供关键见解。

📝 摘要(中文)

本文针对灵巧操作中的Sim-to-Real泛化问题,特别是视觉-语言-动作(VLA)模型在通用策略上的性能,进行了深入的实证研究。由于真实世界数据采集成本高昂,仿真数据成为一种替代方案,但其与真实数据存在显著差距。本文从多层次领域随机化、照片级渲染、物理真实建模和强化学习更新四个维度,考察了Sim-to-Real泛化的主要决定因素。为了支持这项研究,设计了一个全面的评估协议,量化操作任务的真实世界性能,考虑了背景、光照、干扰物、对象类型和空间特征的关键变化。通过超过1万次真实世界试验,获得了关于Sim-to-Real迁移的关键见解。为了促进未来研究,公开了机器人平台和评估协议,以建立一个现实和标准化的灵巧操作策略基准。

🔬 方法详解

问题定义:论文旨在解决灵巧操作任务中,仿真环境训练的模型难以直接应用于真实环境的问题,即Sim-to-Real泛化问题。现有方法虽然提出了各种弥合Sim-to-Real差距的算法,但缺乏在真实操作任务上的系统性评估,尤其是在视觉-语言-动作(VLA)等通用策略上的性能表现。现有方法的痛点在于缺乏一个标准化的、现实的基准来评估和比较不同Sim-to-Real方法的有效性。

核心思路:论文的核心思路是通过控制变量法,系统性地研究影响Sim-to-Real泛化的关键因素。具体来说,论文从四个维度入手:多层次领域随机化、照片级渲染、物理真实建模和强化学习更新,分别考察它们对真实世界操作性能的影响。通过大量的真实实验,分析不同因素对Sim-to-Real迁移的贡献,从而为未来的Sim-to-Real算法设计提供指导。

技术框架:论文的技术框架主要包括以下几个部分:1) 设计一个基于真实机器人的灵巧操作平台;2) 构建一个可配置的仿真环境,能够控制领域随机化、渲染质量和物理引擎的真实度;3) 设计一个全面的评估协议,用于量化真实世界操作任务的性能,该协议考虑了背景、光照、干扰物、对象类型和空间特征等因素的变化;4) 使用VLA模型作为控制策略,在仿真环境中进行训练,并在真实环境中进行测试;5) 通过大量的真实实验,分析不同因素对Sim-to-Real迁移的影响。

关键创新:论文的关键创新在于:1) 系统性地研究了影响Sim-to-Real泛化的多个关键因素,并量化了它们对真实世界操作性能的影响;2) 设计了一个全面的评估协议,为灵巧操作的Sim-to-Real迁移提供了一个标准化的基准;3) 通过大量的真实实验,为未来的Sim-to-Real算法设计提供了有价值的见解。与现有方法相比,本文更加注重实证研究,并提供了一个可复现的评估平台。

关键设计:论文的关键设计包括:1) 多层次领域随机化:设计了不同层次的随机化策略,例如随机化背景颜色、光照强度、物体位置等;2) 照片级渲染:使用了高质量的渲染引擎,尽可能地模拟真实世界的视觉效果;3) 物理真实建模:使用了精确的物理引擎,模拟真实世界的物理规律;4) 强化学习更新:使用了合适的强化学习算法,例如PPO,在仿真环境中训练VLA模型;5) 评估指标:设计了多个评估指标,用于量化真实世界操作任务的性能,例如成功率、操作时间等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过超过1万次真实世界试验,验证了不同Sim-to-Real策略对灵巧操作性能的影响。实验结果表明,多层次领域随机化和物理真实建模对Sim-to-Real迁移至关重要。此外,论文公开了机器人平台和评估协议,为后续研究提供了标准化的基准和可复现的实验环境。

🎯 应用场景

该研究成果可应用于机器人自动化、智能制造、家庭服务等领域。通过提升Sim-to-Real的泛化能力,可以降低机器人部署成本,加速机器人智能化进程。未来,该研究可以扩展到更复杂的任务和环境,例如在恶劣天气或复杂地形下进行操作,从而实现更广泛的应用。

📄 摘要(原文)

Learning a generalist control policy for dexterous manipulation typically relies on large-scale datasets. Given the high cost of real-world data collection, a practical alternative is to generate synthetic data through simulation. However, the resulting synthetic data often exhibits a significant gap from real-world distributions. While many prior studies have proposed algorithms to bridge the Sim-to-Real discrepancy, there remains a lack of principled research that grounds these methods in real-world manipulation tasks, particularly their performance on generalist policies such as Vision-Language-Action (VLA) models. In this study, we empirically examine the primary determinants of Sim-to-Real generalization across four dimensions: multi-level domain randomization, photorealistic rendering, physics-realistic modeling, and reinforcement learning updates. To support this study, we design a comprehensive evaluation protocol to quantify the real-world performance of manipulation tasks. The protocol accounts for key variations in background, lighting, distractors, object types, and spatial features. Through experiments involving over 10k real-world trials, we derive critical insights into Sim-to-Real transfer. To inform and advance future studies, we release both the robotic platforms and the evaluation protocol for public access to facilitate independent verification, thereby establishing a realistic and standardized benchmark for dexterous manipulation policies.