UAM: A Dual-Stream Perspective on Forgetting in VLA Training

📄 arXiv: 2605.15735v1 📥 PDF

作者: Jianke Zhang, Yuanfei Luo, Yucheng Hu, Xiaoyu Chen, Yanjiang Guo, Ziyang Liu, Hongbin Xu, Tian Lan, Jianyu Chen

分类: cs.CV, cs.AI

发布日期: 2026-05-15


💡 一句话要点

提出UAM双流架构,解决VLA训练中的多模态能力遗忘问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言动作模型 多模态学习 具身智能 双流架构 持续学习

📋 核心要点

  1. VLA模型微调VLM时会遗忘多模态能力,即“具身税”问题,这是由于结构性瓶颈导致的。
  2. UAM模型模仿生物视觉的双流结构,增加并行背侧专家,减轻VLM的控制学习负担,从而保留VLM的多模态能力。
  3. 实验表明,UAM在操作任务中实现了最高的平均成功率,并保留了超过95%的VLM多模态能力。

📝 摘要(中文)

视觉-语言-动作(VLA)模型通常通过在动作数据上微调预训练的视觉-语言模型(VLM)来构建。然而,我们发现这种标准方法会系统性地削弱VLM的多模态能力,我们称之为具身税。VLA模型必须遗忘吗?受生物视觉双流组织的启发,我们将这种退化归因于结构性瓶颈:当前的VLA模型要求单个编码器同时支持语言相关的语义和控制相关的视觉特征,而生物视觉将识别和视觉运动控制分离到不同的通路中。基于此,我们提出了统一动作模型(UAM),它增加了一个并行的背侧专家,类似于大脑的背侧通路。为了使背侧专家成为有效的第二条通路,并减轻VLM的控制学习负担,我们从预训练的生成模型初始化它,并使用预测视觉动态的中间层推理目标对其进行训练。这种设计允许我们仅在动作数据上端到端地训练整个VLA模型:无需参数冻结、梯度停止和辅助VL协同训练,UAM保留了超过95%的底层VLM的多模态能力,同时在各种探索分布外泛化的操作任务中实现了基线中的最高平均成功率,包括未见过的对象、新颖的对象-目标组合和指令变化。总之,这些结果表明,VLA中的语义保留可以从架构分离本身中产生,而不是通过冻结权重或辅助数据重放来强制执行,并且这种保留的语义能力可以自然地从VLM转移到动作中的语义泛化。

🔬 方法详解

问题定义:VLA模型在动作数据上微调预训练的VLM时,会显著降低VLM原有的多模态能力,导致模型在处理视觉和语言信息方面的性能下降,即产生“具身税”。现有VLA模型通常使用单一编码器同时处理语言语义和控制相关的视觉特征,这造成了结构性瓶颈,是导致多模态能力遗忘的主要原因。

核心思路:受生物视觉系统的双流(腹侧通路和背侧通路)结构的启发,论文提出将VLA模型也设计成双流结构。腹侧通路负责语言相关的语义信息处理,背侧通路负责控制相关的视觉特征提取。通过这种结构分离,减轻单个编码器的负担,从而减少VLM的多模态能力遗忘。

技术框架:UAM模型包含两个主要分支:腹侧专家(Ventral Expert)和背侧专家(Dorsal Expert)。腹侧专家是预训练的VLM,负责处理语言指令和提取语义信息。背侧专家是一个并行的网络分支,负责提取控制相关的视觉特征,并预测视觉动态。整个模型通过端到端的方式进行训练,无需冻结任何参数或使用额外的辅助数据。

关键创新:UAM模型的核心创新在于其双流架构,它模仿了生物视觉系统的组织方式,将语义理解和控制任务分离到不同的通路中。这种架构上的分离是解决VLA模型多模态能力遗忘问题的关键。此外,使用预训练的生成模型初始化背侧专家,并使用中间层推理目标(预测视觉动态)进行训练,进一步提高了模型的性能。

关键设计:背侧专家使用预训练的生成模型进行初始化,这有助于其快速学习控制相关的视觉特征。训练背侧专家时,使用预测视觉动态作为中间层推理目标,鼓励其学习对动作序列的理解。整个模型使用端到端的方式进行训练,损失函数包括动作预测损失和视觉动态预测损失。没有具体的参数设置在论文中特别强调,属于常规设置。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

UAM模型在多种操作任务中取得了显著的性能提升,在未见过的对象、新颖的对象-目标组合和指令变化等场景下,实现了最高的平均成功率。同时,UAM模型保留了超过95%的底层VLM的多模态能力,表明其有效解决了VLA训练中的多模态能力遗忘问题。

🎯 应用场景

该研究成果可应用于机器人操作、自动驾驶、虚拟现实等领域。通过提升VLA模型的多模态能力和泛化能力,可以使机器人更好地理解人类指令,完成复杂的任务,并在未知环境中进行自主导航和操作。该研究还有助于开发更智能、更人性化的AI系统。

📄 摘要(原文)

Vision--language--action (VLA) models are typically built by fine-tuning a pretrained vision--language model (VLM) on action data. However, we show that this standard recipe systematically erodes the VLM's multimodal competence, a side effect we call the embodiment tax. But do VLAs have to forget? Inspired by the two-stream organization of biological vision, we trace this degradation to a structural bottleneck: current VLAs ask a single encoder to support both language-grounded semantics and control-relevant visual features, whereas biological vision separates recognition and visuomotor control into distinct pathways. Building on this view, we propose the Unified Action Model (UAM), which adds a parallel Dorsal Expert, an analog of the brain's dorsal pathway. To make the Dorsal Expert an effective second pathway and reduce the control-learning burden on the VLM, we initialize it from a pretrained generative model and train it with a mid-level reasoning objective that predicts visual dynamics. This design allows us to train the whole VLA end-to-end on action data alone: with no parameter freezing, no gradient stopping, and no auxiliary VL co-training, UAM retains over $95\%$ of the underlying VLM's multimodal capability and at the same time achieves the highest average success rate among baselines on a variety of manipulation tasks that probe out-of-distribution generalization, including unseen objects, novel object--target compositions, and instruction variation. Together, these results suggest that semantic preservation in VLAs can emerge from architectural separation itself, rather than being enforced by frozen weights or auxiliary data replay, and that this preserved semantic capability can naturally transfer from VLMs to semantic generalization in actions.