Adapting World Models with Latent-State Dynamics Residuals
作者: JB Lanier, Kyungmin Kim, Armin Karamzade, Yifei Liu, Ankita Sinha, Kat He, Davide Corsi, Roy Fox
分类: cs.LG, cs.AI, cs.RO
发布日期: 2025-04-03
备注: 15 pages, 11 figures. Project website at https://redraw.jblanier.net/
💡 一句话要点
ReDRAW:利用隐状态动态残差自适应世界模型,解决模拟到真实环境的迁移问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 世界模型 强化学习 模拟到真实 动态残差 隐状态空间
📋 核心要点
- 模拟到真实环境的强化学习中,模拟器与真实环境的动态差异是关键问题,直接校正高维状态动态不切实际。
- ReDRAW通过学习隐状态动态的残差校正来适应目标环境,避免直接操作高维状态,提高效率。
- 实验表明,ReDRAW在视觉MuJoCo和真实机器人任务中表现出色,尤其在低数据情况下优于传统方法。
📝 摘要(中文)
模拟到真实环境的强化学习面临着模拟环境和真实世界动态差异的挑战,这会严重降低智能体的性能。一个有前景的方法是学习模拟器前向动态的修正,将其表示为残差误差函数。然而,对于图像等高维状态,这种操作是不切实际的。为了克服这个问题,我们提出了ReDRAW,一个在模拟环境中预训练的隐状态自回归世界模型,通过隐状态动态的残差校正来适应目标环境,而不是显式观察到的状态。使用这种自适应的世界模型,ReDRAW使强化学习智能体能够在校正后的动态下进行想象rollout优化,然后在真实世界中部署。在多个基于视觉的MuJoCo领域和一个物理机器人视觉车道跟随任务中,ReDRAW有效地模拟了动态变化,并避免了在传统迁移方法失败的低数据情况下过度拟合。
🔬 方法详解
问题定义:论文旨在解决模拟到真实环境(Sim-to-Real)强化学习中,由于模拟环境与真实环境动态差异导致的智能体性能下降问题。现有方法,如直接学习模拟器动态的残差校正,在高维状态(如图像)下计算成本过高,且容易过拟合。
核心思路:ReDRAW的核心思路是在隐空间中学习动态残差。首先,利用自回归世界模型学习环境的隐状态表示。然后,通过学习隐状态动态的残差校正,将模拟环境的动态适应到真实环境。这种方法避免了直接在高维状态空间中进行操作,降低了计算复杂度,并提高了泛化能力。
技术框架:ReDRAW包含以下主要模块:1) 隐状态自回归世界模型:在模拟环境中预训练,用于学习环境的隐状态表示。2) 隐状态动态残差校正模块:学习模拟环境和真实环境之间隐状态动态的差异,并进行校正。3) 强化学习智能体:利用校正后的世界模型进行策略学习和优化。整体流程是:首先在模拟环境中预训练世界模型,然后利用少量真实数据学习隐状态动态残差,最后使用校正后的世界模型训练强化学习智能体。
关键创新:ReDRAW的关键创新在于将动态残差学习从高维状态空间转移到低维隐状态空间。与直接校正原始状态动态相比,这种方法显著降低了计算复杂度,并提高了模型的泛化能力。此外,ReDRAW利用自回归世界模型学习环境的隐状态表示,能够更好地捕捉环境的动态特性。
关键设计:ReDRAW使用变分自编码器(VAE)作为世界模型的一部分,用于学习环境的隐状态表示。隐状态动态残差校正模块通常是一个小型神经网络,其输入是隐状态,输出是隐状态的残差。损失函数包括重构损失(用于训练VAE)和动态预测损失(用于训练动态残差校正模块)。具体的网络结构和参数设置取决于具体的任务和数据集。
🖼️ 关键图片
📊 实验亮点
ReDRAW在多个视觉MuJoCo任务和真实机器人车道跟随任务中取得了显著成果。在低数据情况下,ReDRAW优于传统的迁移学习方法,能够有效地适应环境动态变化,并避免过度拟合。具体性能提升数据未知,但论文强调了ReDRAW在数据稀缺场景下的优势。
🎯 应用场景
ReDRAW可应用于机器人控制、自动驾驶、游戏AI等领域。通过在模拟环境中进行预训练,并利用少量真实数据进行动态校正,可以显著降低训练成本,提高智能体在真实环境中的性能。该方法尤其适用于难以获取大量真实数据的场景,例如高风险或高成本的实验环境。
📄 摘要(原文)
Simulation-to-reality reinforcement learning (RL) faces the critical challenge of reconciling discrepancies between simulated and real-world dynamics, which can severely degrade agent performance. A promising approach involves learning corrections to simulator forward dynamics represented as a residual error function, however this operation is impractical with high-dimensional states such as images. To overcome this, we propose ReDRAW, a latent-state autoregressive world model pretrained in simulation and calibrated to target environments through residual corrections of latent-state dynamics rather than of explicit observed states. Using this adapted world model, ReDRAW enables RL agents to be optimized with imagined rollouts under corrected dynamics and then deployed in the real world. In multiple vision-based MuJoCo domains and a physical robot visual lane-following task, ReDRAW effectively models changes to dynamics and avoids overfitting in low data regimes where traditional transfer methods fail.