Mind the Sim-to-Real Gap & Think Like a Scientist

📄 arXiv: 2605.21458v1 📥 PDF

作者: Harsh Parikh, Gabriel Levin-Konigsberg, Dominique Perrault-Joncas, Alexander Volfovsky

分类: cs.AI, cs.LG, stat.ME

发布日期: 2026-05-20


💡 一句话要点

提出Fisher-SEP算法,解决模拟器偏差下的强化学习Sim-to-Real问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: Sim-to-Real 强化学习 实验设计 模拟器偏差 Fisher信息

📋 核心要点

  1. 现有强化学习方法在Sim-to-Real迁移中,模拟器偏差导致策略在真实环境表现不佳。
  2. 论文提出Fisher-SEP算法,通过实验设计最小化目标策略值的后验预测方差,从而提升迁移效果。
  3. 实验表明,Fisher-SEP在自动售货机和HIV移动测试等场景中,能有效利用实验数据提升策略性能。

📝 摘要(中文)

本文研究了在序贯决策问题中,当规划器拥有一个预训练的模拟器,并且可以选择在真实环境中进行实验时,如何有效地利用模拟器和真实实验。模拟器查询成本低,但存在校准数据带来的混淆和漂移;真实实验无偏,但每次试验消耗一个真实单元。论文给出了三个主要结果:首先,扩展的模拟引理将模拟器的值误差分解为随机化可以识别的校准-部署偏移和无法通过进一步交互减少的参数残差。其次,模拟器最优策略和最优策略之间的值差距分解为局部组件(已访问状态)和可达性组件(未访问状态)。在纯被动学习下,可达性组件在任何时间范围内都保持远离零。第三,提出了Fisher-SEP,一种模拟辅助实验策略(SEP),旨在最小化目标策略值的后验预测方差,并提供了仅奖励和仅转移的特例。通过两个案例研究验证了该方法:在自动售货机供应链中,前置实验在足够长的时间范围内超过了后验更新;在HIV移动测试示例中,只有设计的探索才能到达监测不足的区域。

🔬 方法详解

问题定义:论文关注的是强化学习中经典的Sim-to-Real问题。具体来说,当有一个预训练的模拟器可以用来训练策略,但该模拟器存在偏差(例如,由于校准数据中的混淆和漂移),同时也可以在真实环境中进行实验,但实验成本很高时,如何设计一个策略,使其在真实环境中表现良好?现有方法的痛点在于,单纯依赖模拟器训练的策略会受到偏差的影响,而完全依赖真实环境实验成本又太高。

核心思路:论文的核心思路是结合模拟器和真实实验的优点,通过实验设计来减少模拟器偏差带来的影响。具体来说,论文提出了一种模拟辅助实验策略(SEP),该策略的目标是最小化目标策略值的后验预测方差。通过最小化方差,可以更准确地估计策略在真实环境中的性能,从而选择更好的策略。论文强调了“像科学家一样思考”,即通过设计实验来主动探索环境,而不是仅仅依赖被动观察。

技术框架:Fisher-SEP的整体框架可以概括为以下几个步骤:1. 利用模拟器预训练一个初始策略。2. 设计实验,选择在真实环境中进行实验的状态和动作。3. 在真实环境中执行实验,收集数据。4. 利用收集到的数据更新策略的值函数估计。5. 重复步骤2-4,直到策略收敛或达到实验预算。Fisher-SEP的关键在于实验设计阶段,论文提出了基于Fisher信息的实验设计方法,旨在选择能够最大程度减少值函数估计方差的实验。

关键创新:论文最重要的技术创新点在于提出了Fisher-SEP算法,该算法结合了模拟器和真实实验,并通过实验设计来减少模拟器偏差的影响。与现有方法相比,Fisher-SEP更加注重主动探索,能够更有效地利用真实实验数据来提升策略性能。此外,论文还提出了扩展的模拟引理,将模拟器的值误差分解为校准-部署偏移和参数残差,为理解Sim-to-Real问题提供了新的视角。

关键设计:Fisher-SEP的关键设计包括:1. 使用Fisher信息来衡量实验对减少值函数估计方差的贡献。2. 设计了奖励-only和转移-only两种特殊情况,分别针对奖励函数和转移函数存在偏差的情况。3. 使用后验预测方差作为目标函数,旨在选择能够最大程度减少值函数估计不确定性的实验。具体的参数设置和网络结构取决于具体的应用场景,论文在自动售货机和HIV移动测试两个案例中展示了Fisher-SEP的应用。

📊 实验亮点

论文通过两个案例研究验证了Fisher-SEP算法的有效性。在自动售货机供应链案例中,Fisher-SEP能够通过前置实验在足够长的时间范围内超过后验更新。在HIV移动测试案例中,Fisher-SEP能够通过设计的探索到达监测不足的区域,而传统的被动学习方法无法做到这一点。这些实验结果表明,Fisher-SEP能够有效地利用真实实验数据来减少模拟器偏差的影响,从而提升策略在真实环境中的性能。

🎯 应用场景

该研究具有广泛的应用前景,例如机器人控制、自动驾驶、医疗诊断等领域。在这些领域中,通常存在一个可以用来训练策略的模拟器,但该模拟器存在偏差。通过使用Fisher-SEP算法,可以有效地利用真实实验数据来减少模拟器偏差的影响,从而提升策略在真实环境中的性能。该研究的未来影响在于,可以降低强化学习算法在真实世界部署的成本和风险。

📄 摘要(原文)

Suppose a planner has a pre-trained simulator of a sequential decision problem and the option to run real experiments in the field. The simulator is cheap to query but inherits confounding and drift from its calibration data. Experimentation is unbiased but consumes one real unit per trial. We study when, and how, the planner should supplement the simulator with experiments. We give three results. First, an extended simulation lemma decomposes the simulator's value error into a calibration--deployment shift that randomization can identify and a parametric residual that no further interaction can reduce. Second, the value gap between the simulator-optimal policy and the optimum splits into a local component, on states the deployed policy already visits, and a reachability component, on states it does not. The reachability component stays bounded away from zero at any horizon under purely passive learning. Third, we propose Fisher-SEP, a simulation-aided experimental policy (SEP) that minimizes the posterior predictive variance of a target policy's value, with reward-only and transition-only specializations. Two case studies illustrate the regimes. In a vending-machine supply chain, front-loaded experimentation overtakes posterior updating once the horizon is long enough to amortize the pilot. In an HIV mobile-testing example with a corridor that separates a well-surveilled region from a poorly-surveilled one, only designed exploration reaches the poorly-surveilled region.