Jump-Start Reinforcement Learning with Vision-Language-Action Regularization
作者: Angelo Moroncelli, Roberto Zanetti, Marco Maccarini, Loris Roveda
分类: cs.LG, cs.AI, cs.RO
发布日期: 2026-04-15
💡 一句话要点
提出VLAJS方法,利用视觉-语言-动作模型引导强化学习,提升机器人操作任务的探索效率。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 机器人操作 视觉-语言-动作模型 动作一致性正则化 样本效率 sim-to-real迁移
📋 核心要点
- 传统强化学习在机器人操作中面临探索效率低和信用分配难的问题,尤其是在长时程和稀疏奖励任务中。
- VLAJS方法利用视觉-语言-动作模型提供高层动作指导,并通过动作一致性正则化将指导信息融入强化学习过程。
- 实验表明,VLAJS在模拟和真实机器人任务中均显著提升了样本效率,并实现了零样本的sim-to-real迁移。
📝 摘要(中文)
强化学习(RL)能够为机器人操作提供高频率的闭环控制,但由于探索效率低下和信用分配不佳,扩展到具有稀疏或不完善奖励的长时程任务仍然很困难。视觉-语言-动作(VLA)模型利用大规模多模态预训练来提供通用、任务级别的推理,但目前的局限性阻碍了它们在快速和精确操作中的直接应用。本文提出视觉-语言-动作Jump-Starting (VLAJS),该方法将稀疏的VLA指导与on-policy RL相结合,以提高探索和学习效率。VLAJS将VLA视为高层动作建议的瞬时来源,在早期探索中产生偏差并改善信用分配,同时保留RL的高频率、基于状态的控制。我们的方法使用方向动作一致性正则化来增强近端策略优化(PPO),在早期训练期间软对齐RL agent的动作与VLA指导,而无需强制模仿、需要演示或依赖连续的教师查询。VLA指导被稀疏地应用并随时间退火,允许agent在线适应并最终超越指导策略。我们在六个具有挑战性的操作任务中评估了VLAJS:提升、拾取和放置、销钉重新定向、销钉插入、戳和推动,并在真实的Franka Panda机器人上验证了一个子集。VLAJS在样本效率方面始终优于PPO和蒸馏式基线,在多个任务中减少了超过50%的所需环境交互。真实世界的实验证明了零样本sim-to-real迁移以及在杂乱、对象变化和外部扰动下的鲁棒执行。
🔬 方法详解
问题定义:现有强化学习方法在机器人操作任务中,尤其是在奖励稀疏或任务周期较长的情况下,存在探索效率低下的问题。同时,如何有效利用预训练的视觉-语言-动作模型(VLA)的知识来指导强化学习agent的训练,也是一个挑战。直接使用VLA模型进行控制可能不够精确,而简单的模仿学习又可能限制agent的探索能力。
核心思路:VLAJS的核心思路是将VLA模型作为强化学习agent的早期探索指导,通过一种软性的动作一致性正则化,引导agent的动作空间,加速学习过程。这种方法避免了强制模仿,允许agent在学习过程中逐渐适应环境,并最终超越VLA模型的指导。
技术框架:VLAJS方法在Proximal Policy Optimization (PPO)算法的基础上进行改进。整体框架包括:1) VLA模型提供高层动作建议;2) PPO agent根据当前状态和VLA建议选择动作;3) 计算agent动作与VLA建议之间的动作一致性损失;4) 将动作一致性损失加入到PPO的损失函数中,更新agent的策略。VLA指导是稀疏的,并且随着训练的进行逐渐减弱。
关键创新:VLAJS的关键创新在于提出了一种方向动作一致性正则化方法,它能够软性地将VLA模型的知识迁移到强化学习agent中,而无需进行严格的模仿学习。这种方法既利用了VLA模型的先验知识,又保留了强化学习agent的探索能力。此外,VLA指导的稀疏性和退火策略也使得agent能够逐渐适应环境,并超越VLA模型的性能。
关键设计:VLAJS的关键设计包括:1) 动作一致性损失函数的设计,用于衡量agent动作与VLA建议之间的相似度;2) VLA指导的稀疏性,即VLA建议并非在每个时间步都提供,而是以一定的概率提供;3) VLA指导的退火策略,即随着训练的进行,VLA建议的权重逐渐降低,允许agent更多地依赖自身学习到的策略。
🖼️ 关键图片
📊 实验亮点
VLAJS在六个模拟机器人操作任务中,样本效率显著优于PPO和蒸馏式基线,在多个任务中减少了超过50%的所需环境交互。在真实Franka Panda机器人上的实验证明了VLAJS的零样本sim-to-real迁移能力,以及在杂乱、对象变化和外部扰动下的鲁棒性。
🎯 应用场景
VLAJS方法可应用于各种机器人操作任务,尤其是在奖励稀疏、任务周期较长的复杂环境中。例如,它可以用于自动化装配、物流分拣、家庭服务机器人等领域,提高机器人的自主性和适应性。该方法还可以扩展到其他类型的预训练模型和强化学习算法,为机器人学习提供更通用的解决方案。
📄 摘要(原文)
Reinforcement learning (RL) enables high-frequency, closed-loop control for robotic manipulation, but scaling to long-horizon tasks with sparse or imperfect rewards remains difficult due to inefficient exploration and poor credit assignment. Vision-Language-Action (VLA) models leverage large-scale multimodal pretraining to provide generalist, task-level reasoning, but current limitations hinder their direct use in fast and precise manipulation. In this paper, we propose Vision-Language-Action Jump-Starting (VLAJS), a method that bridges sparse VLA guidance with on-policy RL to improve exploration and learning efficiency. VLAJS treats VLAs as transient sources of high-level action suggestions that bias early exploration and improve credit assignment, while preserving the high-frequency, state-based control of RL. Our approach augments Proximal Policy Optimization (PPO) with a directional action-consistency regularization that softly aligns the RL agent's actions with VLA guidance during early training, without enforcing strict imitation, requiring demonstrations, or relying on continuous teacher queries. VLA guidance is applied sparsely and annealed over time, allowing the agent to adapt online and ultimately surpass the guiding policy. We evaluate VLAJS on six challenging manipulation tasks: lifting, pick-and-place, peg reorientation, peg insertion, poking, and pushing in simulation, and validate a subset on a real Franka Panda robot. VLAJS consistently outperforms PPO and distillation-style baselines in sample efficiency, reducing required environment interactions by over 50% in several tasks. Real-world experiments demonstrate zero-shot sim-to-real transfer and robust execution under clutter, object variation, and external perturbations.