REALM: A Real-to-Sim Validated Benchmark for Generalization in Robotic Manipulation

📄 arXiv: 2512.19562v1 📥 PDF

作者: Martin Sedlacek, Pavlo Yefanov, Georgy Ponimatkin, Jai Bardhan, Simon Pilc, Mederic Fourmy, Evangelos Kazakos, Cees G. M. Snoek, Josef Sivic, Vladimir Petrik

分类: cs.RO, cs.AI

发布日期: 2025-12-22

备注: 9 pages, 10 figures


💡 一句话要点

REALM:一个经验证的真实-模拟机器人操作泛化基准

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人操作 视觉-语言-动作模型 泛化能力 模拟环境 基准测试

📋 核心要点

  1. 现有VLA模型在真实机器人操作任务中泛化能力不足,且真实环境评估成本高昂。
  2. REALM通过高保真模拟环境,提供多种扰动因子和操作技能,旨在建立模拟与真实世界性能的强相关性。
  3. 实验评估了多个VLA模型,揭示了现有模型在泛化和鲁棒性方面的不足,并验证了模拟环境作为现实代理的价值。

📝 摘要(中文)

视觉-语言-动作(VLA)模型使机器人能够理解和执行自然语言指令描述的任务。然而,一个关键挑战在于它们在训练环境之外的泛化能力,这在现实世界中评估既困难又昂贵。为了解决这个问题,我们提出了REALM,一个新的模拟环境和基准,旨在评估VLA模型的泛化能力,特别强调通过高保真视觉效果和对齐的机器人控制,在模拟和真实世界性能之间建立强相关性。我们的环境提供了15个扰动因子、7个操作技能和超过3500个对象。最后,我们建立了两个任务集作为基准,并评估了π_{0}、π_{0}-FAST和GR00T N1.5 VLA模型,表明泛化和鲁棒性仍然是一个开放的挑战。更广泛地说,我们还表明,模拟为我们提供了现实世界的宝贵代理,并允许我们系统地探测和量化VLA的弱点和失败模式。

🔬 方法详解

问题定义:现有视觉-语言-动作(VLA)模型在机器人操作任务中,难以泛化到训练环境中未见过的场景和物体。在真实机器人上进行泛化能力评估成本高昂,且难以系统性地控制各种环境因素,从而限制了VLA模型的发展。

核心思路:REALM的核心思路是构建一个高保真度的模拟环境,该环境能够尽可能真实地模拟真实世界的物理特性和视觉效果,从而使得在模拟环境中训练和评估的VLA模型能够有效地迁移到真实机器人上。通过控制模拟环境中的各种扰动因子,可以系统性地评估VLA模型的鲁棒性和泛化能力。

技术框架:REALM包含以下主要组成部分:1)一个基于物理引擎的模拟环境,提供高保真度的视觉渲染和物理交互;2)一个包含15种不同扰动因子的集合,用于模拟真实世界中可能出现的各种干扰,例如光照变化、物体位置不确定性等;3)一个包含7种基本操作技能的集合,例如抓取、放置、推动等;4)一个包含超过3500个不同物体的数据库,用于模拟各种不同的操作对象;5)两个任务集,用于评估VLA模型的泛化能力。

关键创新:REALM的关键创新在于其致力于建立模拟环境与真实世界性能之间的强相关性。通过高保真度的视觉渲染、精确的物理模拟以及对齐的机器人控制,REALM力求使得在模拟环境中获得的评估结果能够有效地预测VLA模型在真实机器人上的表现。此外,REALM提供的扰动因子集合和任务集也为VLA模型的泛化能力评估提供了全面的测试平台。

关键设计:REALM使用了先进的渲染技术来生成逼真的视觉图像,并使用精确的物理引擎来模拟物体之间的交互。为了实现对齐的机器人控制,REALM使用了与真实机器人相同的控制接口和运动学模型。扰动因子的设计考虑了真实世界中可能出现的各种干扰因素,例如光照变化、物体位置不确定性、噪声等。任务集的设计旨在评估VLA模型在不同场景和物体上的泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有的VLA模型在REALM基准上表现出明显的泛化能力不足。例如,π_{0}、π_{0}-FAST和GR00T N1.5等模型在面对未见过的场景和物体时,性能显著下降。该结果强调了开发更具鲁棒性和泛化能力的VLA模型的重要性,并验证了REALM作为评估VLA模型泛化能力的有效性。

🎯 应用场景

REALM可应用于机器人操作、自动化、智能制造等领域。通过该基准,研究人员可以更有效地开发和评估具有更强泛化能力的VLA模型,从而推动机器人在复杂和动态环境中的应用。该研究的未来影响在于加速机器人智能化进程,使其能够更好地服务于人类。

📄 摘要(原文)

Vision-Language-Action (VLA) models empower robots to understand and execute tasks described by natural language instructions. However, a key challenge lies in their ability to generalize beyond the specific environments and conditions they were trained on, which is presently difficult and expensive to evaluate in the real-world. To address this gap, we present REALM, a new simulation environment and benchmark designed to evaluate the generalization capabilities of VLA models, with a specific emphasis on establishing a strong correlation between simulated and real-world performance through high-fidelity visuals and aligned robot control. Our environment offers a suite of 15 perturbation factors, 7 manipulation skills, and more than 3,500 objects. Finally, we establish two task sets that form our benchmark and evaluate the π_{0}, π_{0}-FAST, and GR00T N1.5 VLA models, showing that generalization and robustness remain an open challenge. More broadly, we also show that simulation gives us a valuable proxy for the real-world and allows us to systematically probe for and quantify the weaknesses and failure modes of VLAs. Project page: https://martin-sedlacek.com/realm