PVI: Plug-in Visual Injection for Vision-Language-Action Models

📄 arXiv: 2603.12772v1 📥 PDF

作者: Zezhou Zhang, Songxin Zhang, Xiao Xiong, Junjie Zhang, Zejian Xie, Jingyi Xi, Zunyao Mao, Zan Mao, Zhixin Mai, Zhuoyang Song, Jiaxing Zhang

分类: cs.CV, cs.LG, cs.RO

发布日期: 2026-03-13


💡 一句话要点

提出PVI,一种即插即用的视觉注入模块,提升VLA模型在语言条件下的操作能力。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言动作模型 机器人操作 视觉注入 时序信息 预训练模型微调

📋 核心要点

  1. 现有VLA模型在处理细粒度几何信息和时序信息方面存在不足,限制了其在复杂操作任务中的性能。
  2. PVI通过轻量级的即插即用模块,将辅助视觉信息注入到预训练的动作专家中,无需修改VLM架构。
  3. 实验表明,PVI在模拟和真实机器人环境中均能显著提升VLA模型的性能,尤其是在多阶段任务中。

📝 摘要(中文)

视觉-语言-动作(VLA)架构将预训练的视觉-语言模型(VLM)与流匹配动作专家相结合,成为语言条件操作的强大范例。然而,VLM针对语义抽象进行了优化,通常以静态视觉观察为条件,这往往会削弱细粒度的几何线索,并且缺乏动作专家的显式时间证据。先前的工作通过注入辅助视觉特征来缓解这个问题,但现有方法要么侧重于静态空间表示,要么需要大量的架构修改来适应时间输入,导致时间信息未被充分探索。我们提出了即插即用视觉注入(PVI),这是一个轻量级的、与编码器无关的模块,它连接到预训练的动作专家,并通过零初始化的残差路径注入辅助视觉表示,仅通过单阶段微调即可保持预训练的行为。使用PVI,我们获得了优于基础策略和一系列有竞争力的替代注入策略的一致增益,并且我们的受控研究表明,时间视频特征(V-JEPA2)优于强大的静态图像特征(DINOv2),在需要状态跟踪和协调的多阶段任务中增益最大。在长时程双手动布料折叠上的真实机器人实验进一步证明了PVI在模拟之外的实用性。

🔬 方法详解

问题定义:VLA模型依赖于预训练的VLM进行语义理解,但VLM通常侧重于静态图像的语义抽象,忽略了细粒度的几何信息和时序动态。这导致VLA模型在需要精确操作和状态跟踪的任务中表现不佳。现有方法要么需要修改VLM架构,要么只关注静态视觉特征,无法充分利用视频中的时序信息。

核心思路:PVI的核心思路是在不修改预训练VLM的前提下,通过一个轻量级的即插即用模块,将辅助视觉信息注入到动作专家中。该模块通过零初始化的残差连接,保证了在初始阶段不会干扰预训练模型的行为,并通过微调学习如何有效地利用注入的视觉信息。

技术框架:PVI模块连接到预训练的动作专家。该模块接收来自视觉编码器的辅助视觉特征(例如,来自V-JEPA2或DINOv2的特征),并通过一个线性层将其映射到与动作专家输入相同的维度。然后,通过零初始化的残差连接将映射后的特征添加到动作专家的输入中。整个系统通过单阶段微调进行优化。

关键创新:PVI的关键创新在于其轻量级和即插即用的特性。它不需要修改预训练的VLM架构,并且可以通过零初始化的残差连接,保证在初始阶段不会干扰预训练模型的行为。此外,PVI可以灵活地使用不同的视觉编码器,包括静态图像特征提取器和时序视频特征提取器。

关键设计:PVI模块使用零初始化的残差连接,确保在微调开始时,注入的视觉信息不会干扰预训练的动作专家。损失函数通常是标准的行为克隆损失或强化学习损失,用于优化动作专家的策略。在实验中,作者比较了使用不同视觉编码器(例如,DINOv2和V-JEPA2)的效果,并发现时序视频特征(V-JEPA2)在多阶段任务中表现更好。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PVI在模拟和真实机器人环境中均能显著提升VLA模型的性能。在模拟环境中,PVI优于基础策略和一系列有竞争力的替代注入策略。在真实机器人布料折叠任务中,PVI也表现出良好的泛化能力。特别地,使用V-JEPA2提取的时序视频特征在多阶段任务中表现优于DINOv2提取的静态图像特征。

🎯 应用场景

PVI可应用于各种需要语言条件操作的机器人任务,例如家庭服务、工业自动化和医疗辅助。通过提升VLA模型对细粒度几何信息和时序动态的理解,PVI可以使机器人更有效地执行复杂的任务,例如布料折叠、物体组装和手术操作。该方法具有很强的通用性,可以方便地集成到现有的VLA系统中。

📄 摘要(原文)

VLA architectures that pair a pretrained VLM with a flow-matching action expert have emerged as a strong paradigm for language-conditioned manipulation. Yet the VLM, optimized for semantic abstraction and typically conditioned on static visual observations, tends to attenuate fine-grained geometric cues and often lacks explicit temporal evidence for the action expert. Prior work mitigates this by injecting auxiliary visual features, but existing approaches either focus on static spatial representations or require substantial architectural modifications to accommodate temporal inputs, leaving temporal information underexplored. We propose Plug-in Visual Injection (PVI), a lightweight, encoder-agnostic module that attaches to a pretrained action expert and injects auxiliary visual representations via zero-initialized residual pathways, preserving pretrained behavior with only single-stage fine-tuning. Using PVI, we obtain consistent gains over the base policy and a range of competitive alternative injection strategies, and our controlled study shows that temporal video features (V-JEPA2) outperform strong static image features (DINOv2), with the largest gains on multi-phase tasks requiring state tracking and coordination. Real-robot experiments on long-horizon bimanual cloth folding further demonstrate the practicality of PVI beyond simulation.