Grounding Sim-to-Real Generalization in Dexterous Manipulation: An Empirical Study with Vision-Language-Action Models

作者: Ruixing Jin, Zicheng Zhu, Ruixiang Ouyang, Sheng Xu, Bo Yue, Zhizheng Wu, Guiliang Liu

分类: cs.RO, cs.AI

发布日期: 2026-03-24

💡 一句话要点

基于视觉-语言-动作模型的灵巧操作Sim-to-Real泛化经验研究

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: Sim-to-Real 灵巧操作 视觉-语言-动作模型 领域随机化 强化学习

📋 核心要点

现有灵巧操作通用策略学习依赖大规模数据集，真实数据采集成本高，仿真数据存在Sim-to-Real差距。
本文从多维度分析Sim-to-Real泛化的决定因素，包括领域随机化、渲染真实度、物理建模和强化学习更新。
设计综合评估协议，包含背景、光照、干扰等因素，通过大量真实实验，为Sim-to-Real迁移提供关键见解。

📝 摘要（中文）

本文针对灵巧操作中的Sim-to-Real泛化问题，特别是视觉-语言-动作(VLA)模型在通用策略上的性能，进行了深入的实证研究。由于真实世界数据采集成本高昂，仿真数据成为一种替代方案，但其与真实数据存在显著差距。本文从多层次领域随机化、照片级渲染、物理真实建模和强化学习更新四个维度，考察了Sim-to-Real泛化的主要决定因素。为了支持这项研究，设计了一个全面的评估协议，量化操作任务的真实世界性能，考虑了背景、光照、干扰物、对象类型和空间特征的关键变化。通过超过1万次真实世界试验，获得了关于Sim-to-Real迁移的关键见解。为了促进未来研究，公开了机器人平台和评估协议，以建立一个现实和标准化的灵巧操作策略基准。

🔬 方法详解

问题定义：论文旨在解决灵巧操作任务中，仿真环境训练的模型难以直接应用于真实环境的问题，即Sim-to-Real泛化问题。现有方法虽然提出了各种弥合Sim-to-Real差距的算法，但缺乏在真实操作任务上的系统性评估，尤其是在视觉-语言-动作(VLA)等通用策略上的性能表现。现有方法的痛点在于缺乏一个标准化的、现实的基准来评估和比较不同Sim-to-Real方法的有效性。

核心思路：论文的核心思路是通过控制变量法，系统性地研究影响Sim-to-Real泛化的关键因素。具体来说，论文从四个维度入手：多层次领域随机化、照片级渲染、物理真实建模和强化学习更新，分别考察它们对真实世界操作性能的影响。通过大量的真实实验，分析不同因素对Sim-to-Real迁移的贡献，从而为未来的Sim-to-Real算法设计提供指导。

技术框架：论文的技术框架主要包括以下几个部分：1) 设计一个基于真实机器人的灵巧操作平台；2) 构建一个可配置的仿真环境，能够控制领域随机化、渲染质量和物理引擎的真实度；3) 设计一个全面的评估协议，用于量化真实世界操作任务的性能，该协议考虑了背景、光照、干扰物、对象类型和空间特征等因素的变化；4) 使用VLA模型作为控制策略，在仿真环境中进行训练，并在真实环境中进行测试；5) 通过大量的真实实验，分析不同因素对Sim-to-Real迁移的影响。

关键创新：论文的关键创新在于：1) 系统性地研究了影响Sim-to-Real泛化的多个关键因素，并量化了它们对真实世界操作性能的影响；2) 设计了一个全面的评估协议，为灵巧操作的Sim-to-Real迁移提供了一个标准化的基准；3) 通过大量的真实实验，为未来的Sim-to-Real算法设计提供了有价值的见解。与现有方法相比，本文更加注重实证研究，并提供了一个可复现的评估平台。

关键设计：论文的关键设计包括：1) 多层次领域随机化：设计了不同层次的随机化策略，例如随机化背景颜色、光照强度、物体位置等；2) 照片级渲染：使用了高质量的渲染引擎，尽可能地模拟真实世界的视觉效果；3) 物理真实建模：使用了精确的物理引擎，模拟真实世界的物理规律；4) 强化学习更新：使用了合适的强化学习算法，例如PPO，在仿真环境中训练VLA模型；5) 评估指标：设计了多个评估指标，用于量化真实世界操作任务的性能，例如成功率、操作时间等。

🖼️ 关键图片

📊 实验亮点

论文通过超过1万次真实世界试验，验证了不同Sim-to-Real策略对灵巧操作性能的影响。实验结果表明，多层次领域随机化和物理真实建模对Sim-to-Real迁移至关重要。此外，论文公开了机器人平台和评估协议，为后续研究提供了标准化的基准和可复现的实验环境。

🎯 应用场景

该研究成果可应用于机器人自动化、智能制造、家庭服务等领域。通过提升Sim-to-Real的泛化能力，可以降低机器人部署成本，加速机器人智能化进程。未来，该研究可以扩展到更复杂的任务和环境，例如在恶劣天气或复杂地形下进行操作，从而实现更广泛的应用。

📄 摘要（原文）

Learning a generalist control policy for dexterous manipulation typically relies on large-scale datasets. Given the high cost of real-world data collection, a practical alternative is to generate synthetic data through simulation. However, the resulting synthetic data often exhibits a significant gap from real-world distributions. While many prior studies have proposed algorithms to bridge the Sim-to-Real discrepancy, there remains a lack of principled research that grounds these methods in real-world manipulation tasks, particularly their performance on generalist policies such as Vision-Language-Action (VLA) models. In this study, we empirically examine the primary determinants of Sim-to-Real generalization across four dimensions: multi-level domain randomization, photorealistic rendering, physics-realistic modeling, and reinforcement learning updates. To support this study, we design a comprehensive evaluation protocol to quantify the real-world performance of manipulation tasks. The protocol accounts for key variations in background, lighting, distractors, object types, and spatial features. Through experiments involving over 10k real-world trials, we derive critical insights into Sim-to-Real transfer. To inform and advance future studies, we release both the robotic platforms and the evaluation protocol for public access to facilitate independent verification, thereby establishing a realistic and standardized benchmark for dexterous manipulation policies.

Grounding Sim-to-Real Generalization in Dexterous Manipulation: An Empirical Study with Vision-Language-Action Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理