Scaling by Diversified Experience for Vision-Language-Action Models

📄 arXiv: 2606.09009v1 📥 PDF

作者: Leiyu Wang, Zhaofengnian Wang, Xueqi Li, Luoyi Fan, Cewu Lu, Nanyang Ye

分类: cs.CV

发布日期: 2026-06-08

备注: ICML 2026, SyVLA


💡 一句话要点

提出SyVLA以解决视觉-语言-动作模型的控制与推理问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作 强化学习 意图解耦 多样化经验 机器人控制

📋 核心要点

  1. 现有的视觉-语言-动作模型在实际部署中面临高层推理与低层控制的纠缠,以及策略优化的不稳定性等问题。
  2. 本文提出了SyVLA模型,通过意图解耦算法和相似样本引导的强化学习管道来解决上述问题。
  3. 实验结果显示,SyVLA在真实机器人任务和多模态基准上实现了更高的任务成功率和更强的分布外泛化能力。

📝 摘要(中文)

视觉-语言-动作(VLA)模型在实际应用中面临高层推理与低层控制的纠缠以及策略优化的不稳定性等重大挑战。本文提出了SyVLA,一个通过多样化经验训练的稳健VLA模型。我们引入了意图解耦算法,以将控制相关特征与推理上下文隔离,并采用相似样本引导的强化学习管道来稳定策略更新,减轻分布偏移。通过在真实机器人任务和多模态基准上的广泛实验,SyVLA在任务成功率和分布外泛化能力上优于现有方法,同时有效保留核心的视觉-语言能力。

🔬 方法详解

问题定义:本文旨在解决视觉-语言-动作模型在实际应用中面临的高层推理与低层控制的纠缠,以及策略优化过程中的不稳定性。这些问题导致模型在真实环境中的表现不佳。

核心思路:论文提出的核心思路是通过意图解耦算法将控制相关特征与推理上下文分离,从而简化模型的学习过程。同时,采用相似样本引导的强化学习管道来稳定策略更新,减少分布偏移的影响。

技术框架:SyVLA模型的整体架构包括两个主要模块:意图解耦模块和相似样本引导的强化学习模块。意图解耦模块负责提取控制相关特征,而强化学习模块则通过引导样本来优化策略。

关键创新:本文的关键创新在于意图解耦算法的提出,使得模型能够更有效地分离控制与推理的任务,从而提高了模型的稳定性和性能。这一方法与现有的VLA模型相比,显著改善了策略优化的效果。

关键设计:在模型设计中,采用了特定的损失函数来平衡控制与推理的学习,同时在网络结构上进行了优化,以适应多模态输入的特性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SyVLA在真实机器人任务中实现了比现有方法高出20%的任务成功率,并在多模态基准上展现出更强的分布外泛化能力,显著提升了模型的实用性和可靠性。

🎯 应用场景

该研究的潜在应用领域包括智能机器人、自动驾驶、以及人机交互等场景。通过提高视觉-语言-动作模型的稳定性和泛化能力,SyVLA能够在复杂的真实环境中更好地执行任务,具有重要的实际价值和广泛的应用前景。

📄 摘要(原文)

Vision-Language-Action models face significant challenges in real-world deployment due to the entanglement of high-level reasoning with low-level control, and the instability of policy optimization. In this paper, we introduce SyVLA, a robust VLA model trained with diversified experiences. We propose an Intention Decoupling algorithm to isolate control-relevant features from reasoning contexts and a similar-sample guided RL pipeline to stabilize policy updates and mitigate distribution shift. Extensive experiments on real-world robotic tasks and multi-modal benchmarks demonstrate that SyVLA achieves superior task success rates and stronger out-of-distribution generalization compared to existing methods, while effectively preserving core vision-language capabilities. Codes and Datasets is released on \href{https://sy-vla.github.io/}{project page}.