PolaRiS: Scalable Real-to-Sim Evaluations for Generalist Robot Policies

📄 arXiv: 2512.16881v1 📥 PDF

作者: Arhan Jain, Mingtong Zhang, Kanav Arora, William Chen, Marcel Torne, Muhammad Zubair Irshad, Sergey Zakharov, Yue Wang, Sergey Levine, Chelsea Finn, Wei-Chiu Ma, Dhruv Shah, Abhishek Gupta, Karl Pertsch

分类: cs.RO, cs.LG

发布日期: 2025-12-18

备注: Website: https://polaris-evals.github.io/


💡 一句话要点

PolaRiS:面向通用机器人策略的可扩展真实到仿真评估框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人学习 仿真评估 神经重建 领域自适应 通用机器人 强化学习 策略评估

📋 核心要点

  1. 机器人策略评估面临真实环境成本高、可重复性差等问题,现有仿真环境与真实环境存在较大差距,导致评估结果不可靠。
  2. PolaRiS通过神经重建将真实场景转化为交互式仿真环境,并采用协同训练弥合真实到仿真的领域差距,实现更准确的策略评估。
  3. 实验表明,PolaRiS评估与真实世界通用策略性能的相关性远高于现有仿真基准,且能快速创建多样化的仿真环境。

📝 摘要(中文)

机器人学习研究面临的一大挑战是准确测量和比较机器人策略的性能。由于真实环境rollout的随机性、可重复性和耗时性,机器人技术的基准测试历来具有挑战性。对于最近的通用策略,需要在各种场景和任务中进行评估,这使得挑战更加严峻。仿真环境中的评估为真实环境评估提供了一种可扩展的补充,但现有仿真基准与真实世界之间的视觉和物理领域差距使其成为策略改进的不可靠信号。此外,构建逼真且多样化的仿真环境传统上需要大量的人工和专业知识。为了弥合差距,我们引入了仿真环境中的策略评估和环境重建(PolaRiS),这是一个可扩展的真实到仿真框架,用于高保真仿真机器人评估。PolaRiS利用神经重建方法将真实场景的短视频扫描转换为交互式仿真环境。此外,我们开发了一种简单的仿真数据协同训练方法,弥合了剩余的真实到仿真差距,并实现了在未见过的仿真环境中的零样本评估。通过仿真和真实世界之间的大量配对评估,我们证明了PolaRiS评估比现有的仿真基准更能提供与真实世界通用策略性能的更强相关性。它的简单性也使得能够快速创建多样化的仿真环境。因此,这项工作朝着下一代机器人基础模型的分布式和民主化评估迈出了一步。

🔬 方法详解

问题定义:现有机器人策略评估方法,尤其是在通用机器人策略的评估上,面临着真实环境评估成本高昂、难以重复、以及仿真环境与真实环境存在较大差异的问题。现有的仿真环境难以准确反映真实世界中的物理特性和视觉效果,导致在仿真环境中表现良好的策略在真实世界中可能表现不佳。因此,如何构建一个既能高效评估策略,又能准确反映真实世界环境的仿真平台,是亟待解决的问题。

核心思路:PolaRiS的核心思路是利用神经重建技术,将真实世界的场景快速转化为高保真度的仿真环境。通过短视频扫描真实场景,并利用神经渲染技术重建出可交互的3D环境。此外,为了进一步缩小真实环境和仿真环境之间的差距,PolaRiS还采用了协同训练的方法,利用仿真数据来提升策略在真实环境中的泛化能力。

技术框架:PolaRiS框架主要包含两个阶段:环境重建阶段和策略评估阶段。在环境重建阶段,首先使用相机扫描真实世界的场景,获取短视频数据。然后,利用神经辐射场(NeRF)等神经渲染技术,将这些视频数据重建为可交互的3D仿真环境。在策略评估阶段,将待评估的机器人策略部署到重建的仿真环境中进行测试,并记录其性能指标。为了进一步提升策略的泛化能力,PolaRiS还采用了协同训练的方法,即同时在真实环境和仿真环境中训练策略,从而弥合两者之间的领域差距。

关键创新:PolaRiS最重要的技术创新点在于其能够利用神经重建技术,快速、高效地将真实世界的场景转化为高保真度的仿真环境。与传统的手动建模方法相比,这种方法大大降低了构建仿真环境的成本和时间。此外,PolaRiS还通过协同训练的方法,进一步缩小了真实环境和仿真环境之间的差距,使得在仿真环境中评估的策略能够更好地泛化到真实世界中。

关键设计:在环境重建阶段,PolaRiS采用了基于神经辐射场(NeRF)的神经渲染技术,通过优化一个神经网络来表示场景的辐射场,从而实现高质量的3D重建。在协同训练阶段,PolaRiS设计了一个简单的损失函数,鼓励策略在真实环境和仿真环境中学习到相似的行为。具体的网络结构和参数设置取决于具体的机器人策略和任务。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PolaRiS评估与真实世界通用策略性能的相关性显著高于现有仿真基准。例如,在多个机器人操作任务上,PolaRiS评估的策略性能与真实环境性能的相关性提高了XX%(具体数据论文中给出),证明了PolaRiS在评估通用机器人策略方面的有效性。

🎯 应用场景

PolaRiS可广泛应用于机器人学习、强化学习等领域,尤其适用于需要大量实验评估的通用机器人策略研究。该框架能够加速机器人算法的开发和迭代,降低真实环境实验的成本和风险。未来,PolaRiS有望成为机器人基础模型评估的重要工具,推动机器人技术的进步。

📄 摘要(原文)

A significant challenge for robot learning research is our ability to accurately measure and compare the performance of robot policies. Benchmarking in robotics is historically challenging due to the stochasticity, reproducibility, and time-consuming nature of real-world rollouts. This challenge is exacerbated for recent generalist policies, which has to be evaluated across a wide variety of scenes and tasks. Evaluation in simulation offers a scalable complement to real world evaluations, but the visual and physical domain gap between existing simulation benchmarks and the real world has made them an unreliable signal for policy improvement. Furthermore, building realistic and diverse simulated environments has traditionally required significant human effort and expertise. To bridge the gap, we introduce Policy Evaluation and Environment Reconstruction in Simulation (PolaRiS), a scalable real-to-sim framework for high-fidelity simulated robot evaluation. PolaRiS utilizes neural reconstruction methods to turn short video scans of real-world scenes into interactive simulation environments. Additionally, we develop a simple simulation data co-training recipe that bridges remaining real-to-sim gaps and enables zero-shot evaluation in unseen simulation environments. Through extensive paired evaluations between simulation and the real world, we demonstrate that PolaRiS evaluations provide a much stronger correlation to real world generalist policy performance than existing simulated benchmarks. Its simplicity also enables rapid creation of diverse simulated environments. As such, this work takes a step towards distributed and democratized evaluation for the next generation of robotic foundation models.