Learning while Deploying: Fleet-Scale Reinforcement Learning for Generalist Robot Policies

作者: Yi Wang, Xinchen Li, Pengwei Xie, Pu Yang, Buqing Nie, Yunuo Cai, Qinglin Zhang, Chendi Qu, Jeffrey Wu, Jianheng Song, Xinlin Ren, Jingshun Huang, Mingjie Pan, Siyuan Feng, Zhi Chen, Jianlan Luo

分类: cs.RO

发布日期: 2026-05-01

备注: No

💡 一句话要点

提出LWD框架，用于通用机器人策略在部署中持续学习，提升真实环境下的泛化能力。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 强化学习 机器人学习 持续学习 通用机器人策略 视觉-语言-动作 离线到在线学习 舰队学习

📋 核心要点

现有通用机器人策略依赖离线数据预训练，难以适应真实环境中的分布偏移、长尾问题和任务变化。
LWD框架通过部署、共享经验、策略改进和重新部署的闭环，实现机器人策略在真实环境中的持续学习。
实验表明，LWD框架能显著提升通用机器人策略在长时程任务中的成功率，平均成功率达到95%。

📝 摘要（中文）

通用机器人策略越来越多地受益于大规模预训练，但仅靠离线数据不足以实现稳健的真实世界部署。已部署的机器人会遇到分布偏移、长尾失败、任务变化以及人工纠正机会，这些都是固定的演示数据集无法完全捕捉的。我们提出了“部署中学习”（Learning While Deploying，LWD），这是一个用于通用视觉-语言-动作（VLA）策略持续后训练的舰队规模离线到在线强化学习框架。从预训练的VLA策略开始，LWD通过使用跨机器人舰队收集的自主rollout和人工干预，闭合了部署、共享物理经验、策略改进和重新部署之间的循环。为了稳定从异构、稀疏奖励的舰队数据中学习，LWD结合了用于稳健价值估计的分布隐式价值学习（DIVL）和通过伴随匹配（QAM）进行Q学习，以用于基于流的VLA动作生成器中的策略提取。我们在一个由16个双臂机器人组成的舰队上，跨越八个真实世界的操作任务验证了LWD，包括语义杂货补货和3-5分钟的长时程任务。随着舰队经验的积累，单个通用策略得到改进，平均成功率达到95%，其中长时程任务的收益最大。

🔬 方法详解

问题定义：现有通用机器人策略依赖大规模离线数据预训练，但真实部署环境中存在数据分布偏移、长尾失败案例、任务变化以及人工干预等情况，离线数据无法完全覆盖这些情况，导致策略在真实环境中的泛化能力不足。因此，需要一种方法能够让机器人策略在部署过程中持续学习，适应真实环境的复杂性和变化。

核心思路：LWD的核心思路是构建一个闭环系统，将机器人部署、经验共享、策略改进和重新部署连接起来。通过在真实环境中进行自主探索和接受人工干预，机器人可以收集到更具代表性的数据。然后，利用这些数据对策略进行持续改进，并将改进后的策略重新部署到机器人上，从而实现策略的持续优化。

技术框架：LWD框架包含以下几个主要模块：1) 数据收集：机器人舰队在真实环境中进行自主rollout，并记录rollout过程中的状态、动作和奖励。同时，允许人工干预，收集人工纠正数据。2) 经验共享：将所有机器人收集到的数据集中存储，形成一个共享的经验池。3) 策略改进：利用共享的经验池，使用强化学习算法对策略进行训练和改进。LWD采用了Distributional Implicit Value Learning (DIVL) 和 Q-learning via Adjoint Matching (QAM) 两种算法。4) 策略部署：将改进后的策略部署到机器人舰队上，开始新一轮的部署和学习。

关键创新：LWD的关键创新在于其闭环学习框架，能够让机器人策略在真实环境中持续学习和改进。此外，LWD还采用了DIVL和QAM两种强化学习算法，以提高学习的稳定性和效率。DIVL用于更鲁棒的价值估计，而QAM则用于从基于流的VLA动作生成器中提取策略。

关键设计：LWD的关键设计包括：1) 异构数据处理：由于不同机器人和任务的数据分布可能存在差异，LWD需要对异构数据进行处理，以避免影响学习效果。2) 稀疏奖励处理：真实环境中，奖励信号通常是稀疏的，LWD需要采用合适的奖励塑造方法，以提高学习效率。3) 探索与利用平衡：LWD需要在探索新的行为和利用已知的知识之间进行平衡，以避免陷入局部最优解。具体参数设置、损失函数和网络结构等细节未在摘要中详细描述，属于未知信息。

🖼️ 关键图片

📊 实验亮点

LWD框架在包含语义杂货补货和3-5分钟长时程任务的八个真实世界操作任务中进行了验证。实验结果表明，随着机器人舰队经验的积累，单个通用策略的平均成功率达到了95%，尤其是在长时程任务中取得了显著的性能提升。这表明LWD框架能够有效地提高机器人策略在真实环境中的泛化能力和鲁棒性。

🎯 应用场景

LWD框架具有广泛的应用前景，可以应用于各种需要机器人进行自主操作的场景，例如智能仓储、智能制造、家庭服务等。通过持续学习，机器人可以不断适应新的任务和环境，提高工作效率和智能化水平。该研究对于推动通用机器人技术的发展具有重要意义。

📄 摘要（原文）

Generalist robot policies increasingly benefit from large-scale pretraining, but offline data alone is insufficient for robust real-world deployment. Deployed robots encounter distribution shifts, long-tail failures, task variations, and human correction opportunities that fixed demonstration datasets cannot fully capture. We present Learning While Deploying (LWD), a fleet-scale offline-to-online reinforcement learning framework for continual post-training of generalist Vision-Language-Action (VLA) policies. Starting from a pretrained VLA policy, LWD closes the loop between deployment, shared physical experience, policy improvement, and redeployment by using autonomous rollouts and human interventions collected across a robot fleet. To stabilize learning from heterogeneous, sparse-reward fleet data, LWD combines Distributional Implicit Value Learning (DIVL) for robust value estimation with Q-learning via Adjoint Matching (QAM) for policy extraction in flow-based VLA action generators. We validate LWD on a fleet of 16 dual-arm robots across eight real-world manipulation tasks, including semantic grocery restocking and 3--5 minute long-horizon tasks. A single generalist policy improves as fleet experience accumulates, reaching an average success rate of 95%, with the largest gains on long-horizon tasks.

Learning while Deploying: Fleet-Scale Reinforcement Learning for Generalist Robot Policies

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理