BORA: Bridging Offline Reinforcement Learning and Online Residual Adaptation for Real-World Dexterous VLA Models

📄 arXiv: 2605.30226v1 📥 PDF

作者: Zhongxi Chen, Yifan Han, Yanming Shao, Huanming Liu, Congsheng Xu, Xiaoyu Chen, Yao Mu, Wenzhao Lian

分类: cs.RO, cs.AI

发布日期: 2026-05-28

备注: 24 pages,11 figures


💡 一句话要点

BORA:桥接离线强化学习与在线残差自适应,用于真实世界灵巧VLA模型

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 灵巧操作 视觉语言动作模型 离线强化学习 在线残差自适应 人机协作 机器人学习 价值引导

📋 核心要点

  1. 现有VLA模型在灵巧操作中面临高维度控制和误差累积的挑战,需要真实世界强化学习进行微调。
  2. BORA框架通过离线构建动作条件价值引导的评论器,并在线进行人机协作的残差自适应,提升性能。
  3. 实验结果表明,BORA在真实灵巧操作任务中显著优于传统方法,成功率提升显著,泛化能力更强。

📝 摘要(中文)

视觉-语言-动作(VLA)模型已成为将视觉-语言理解融入真实世界机器人操作的一种有前景的范例。然而,由于高维度的手部控制和累积的执行误差,灵巧操作对于VLA策略仍然具有挑战性,这使得真实世界的强化学习后训练对于弥合视觉动作生成和物理可靠的灵巧执行之间的差距至关重要。然而,高维度的灵巧探索通常会在现实世界中引发时间不一致性、样本效率低下和硬件风险。为了应对这些挑战,我们提出了一种专为真实世界灵巧VLA模型设计的离线到在线强化学习后训练框架BORA。在离线阶段,BORA构建了一个评论器,它将VLM的认知tokens和动作chunks作为输入。这种设计实现了动作条件价值引导,允许评论器评估超出视觉上下文的灵巧手部运动。在随后的在线阶段,BORA冻结VLA基础模型,并引入了一种轻量级的人在环(HiL)chunk-wise残差自适应机制,以减轻真实世界的执行误差,并在实际物理环境中进一步纠正离线学习的意图。通过继承离线评论器并采用干预驱动的奖励,BORA有效地纠正了执行差异并适应了真实世界的物理差异,同时保留了预训练策略作为稳定的先验。在五个复杂的真实世界灵巧任务中的广泛评估表明,BORA显著优于纯模仿学习和传统的解耦强化学习基线,在标准设置下平均成功率绝对提高了33%,在未见过的对象泛化方面提高了高达43%。

🔬 方法详解

问题定义:现有视觉-语言-动作(VLA)模型在真实世界灵巧操作任务中,由于高维度的手部控制和累积的执行误差,难以达到理想的性能。纯模仿学习无法克服真实环境中的物理差异,而直接在真实环境中进行强化学习探索效率低下且存在硬件风险。因此,如何高效地利用离线数据,并安全地适应真实环境的物理特性,是亟待解决的问题。

核心思路:BORA的核心思路是结合离线强化学习和在线残差自适应。首先,利用离线数据训练一个能够评估动作价值的评论器,该评论器不仅考虑视觉信息,还考虑动作序列本身,从而实现动作条件价值引导。然后,在在线阶段,冻结预训练的VLA模型,只对一个轻量级的残差网络进行微调,并通过人机协作的方式,安全高效地适应真实环境。

技术框架:BORA框架包含离线训练和在线适应两个阶段。在离线阶段,使用离线数据集训练一个动作条件评论器,该评论器以VLM的认知tokens和动作chunks作为输入,输出动作的价值。在线阶段,冻结VLA基座模型,引入一个轻量级的chunk-wise残差网络,该网络以当前状态和VLA模型输出的动作为输入,输出一个残差动作。人类操作员可以对残差动作进行干预,以纠正执行误差。通过干预驱动的奖励函数,残差网络可以学习到如何更好地适应真实环境。

关键创新:BORA的关键创新在于:1) 提出了动作条件价值引导的评论器,能够更准确地评估灵巧手部动作的价值;2) 引入了chunk-wise残差自适应机制,能够安全高效地适应真实环境;3) 结合了人机协作,利用人类的先验知识来指导模型的学习。

关键设计:动作条件评论器的输入包括VLM的认知tokens和动作chunks,输出一个标量值,表示该动作序列的价值。残差网络是一个轻量级的多层感知机,输入是当前状态和VLA模型输出的动作,输出一个残差动作。奖励函数包括任务奖励和干预惩罚项,鼓励模型自主完成任务,并减少对人类干预的依赖。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

BORA在五个真实世界的灵巧操作任务中取得了显著的性能提升。在标准设置下,BORA的平均成功率比纯模仿学习和传统解耦强化学习基线提高了33%。在未见过的对象泛化方面,BORA的性能提升高达43%。这些结果表明,BORA能够有效地利用离线数据,并安全高效地适应真实环境,从而实现更强大的灵巧操作能力。

🎯 应用场景

BORA框架可应用于各种需要灵巧操作的机器人任务,例如:工业装配、医疗手术、家庭服务等。该研究有助于提升机器人在复杂环境中的适应性和操作能力,降低对人工干预的依赖,实现更智能、更自主的机器人系统。未来,该方法有望扩展到更多类型的机器人和任务中,推动机器人技术的广泛应用。

📄 摘要(原文)

Vision-Language-Action (VLA) models have emerged as a promising paradigm for grounding visual-language understanding into real-world robotic manipulation. However, dexterous manipulation remains challenging for VLA policies due to high-dimensional hand control and compounding execution errors, which makes real-world RL post-training essential for bridging the gap between visually grounded action generation and physically reliable dexterous execution. However, high-dimensional dexterous exploration often triggers temporal inconsistency, sample inefficiency and hardware risks in the real world. To address these challenges, we propose BORA, an offline-to-online RL post-training framework designed for real-world dexterous VLA models. In the offline phase, BORA constructs a critic that takes both the VLM's cognition tokens and action chunks as inputs. This design enables action-conditioned value guidance, allowing the critic to evaluate dexterous hand motions beyond visual context alone. During the subsequent online phase, BORA freezes the VLA base and introduces a lightweight, Human-in-the-Loop (HiL) chunk-wise residual adaptation mechanism to mitigate real-world execution errors and further correct the offline-learned intents within the actual physical environment. By inheriting the offline critic and employing intervention-driven rewards, BORA effectively corrects execution discrepancies and adapts to real-world physical variances while preserving the pretrained policy as a stable prior. Extensive evaluations across five complex real-world dexterous tasks demonstrate that BORA significantly outperforms pure imitation learning and traditional decoupled RL baselines, achieving a 33% absolute increase in average success rate under standard settings and up to a 43% improvement in unseen object generalization.