One Token Per Frame: Reconsidering Visual Bandwidth in World Models for VLA Policy

📄 arXiv: 2605.07931v1 📥 PDF

作者: Zuojin Tang, Shengchao Yuan, Xiaoxin Bai, Zhiyuan Jin, De Ma, Gang Pan, Bin Liu

分类: cs.CV, cs.AI

发布日期: 2026-05-08


💡 一句话要点

提出OneWM-VLA模型,通过单Token帧压缩与流匹配目标优化视觉-语言-动作(VLA)策略的长程规划能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 世界模型 流匹配 长程规划 特征压缩 机器人学习 参数高效微调

📋 核心要点

  1. 现有世界模型增强型VLA在处理高带宽视觉输入时,存在计算冗余且缺乏对每帧表征与动作耦合的深度优化。
  2. 提出OneWM-VLA,通过自适应注意力池化将每帧压缩为单Token,并采用统一的流匹配目标同步生成潜在流与动作轨迹。
  3. 实验证明该方法在MetaWorld、LIBERO及真实机器人折叠任务中显著提升了长程规划成功率,且参数效率极高。

📝 摘要(中文)

视觉-语言-动作(VLA)模型日益依赖辅助世界模型进行长程规划,但在预训练VLA基础上如何参数化这些模块仍是开放性问题。现有的世界模型增强型VLA通常在高视觉带宽下处理每帧视觉流,并将回放视为动作预测的副产品;在冻结骨干网络的有限适配预算下,这种做法导致每帧表征与潜在动作耦合的研究不足。本文提出了OneWM-VLA,通过自适应注意力池化将每帧视图压缩为单个语义Token,并利用单一流匹配目标同时生成潜在流与动作轨迹,而非通过独立的解码器进行连接。实验表明,在本文框架下,每帧视觉带宽可降至单个Token而不影响长程性能。在π0 (2B)骨干网络上仅使用14.71M LoRA参数训练,OneWM-VLA在MetaWorld MT50上的平均成功率从47.9%提升至61.3%,在LIBERO-Long上达到95.6%(基线为85.2%),并在Piper机械臂的折叠布料长程任务中达到60.0%(基线为20.0%)。

🔬 方法详解

问题定义:现有VLA模型在引入世界模型时,往往直接输入高维视觉流,导致计算开销大且难以在冻结骨干网络的前提下有效学习视觉表征与动作序列的深层耦合关系。

核心思路:论文提出将视觉带宽压缩至极致的“每帧一Token”策略,通过自适应注意力池化提取核心语义,并摒弃传统的独立解码器结构,改用流匹配(Flow Matching)目标函数实现视觉潜在空间与动作空间的统一建模。

技术框架:整体架构基于预训练的VLA骨干网络(如π0),引入轻量级LoRA适配器。输入图像经由自适应注意力池化模块压缩为单Token,随后进入世界模型模块,通过流匹配目标函数同时预测未来的视觉潜在状态序列与对应的动作轨迹。

关键创新:最重要的创新在于将复杂的长程规划任务转化为统一的流匹配问题,并证明了在极低视觉带宽(每帧1 Token)下,通过语义压缩仍能保留足够的决策信息,从而显著降低了计算复杂度并提升了泛化能力。

关键设计:采用自适应注意力池化(Adaptive Attention Pooling)进行特征降维;训练目标采用流匹配(Flow Matching)损失,替代了传统的自回归或独立解码器架构;在2B参数量的骨干网络上仅微调14.71M参数,实现了极高的参数效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OneWM-VLA在极低参数开销(14.71M LoRA参数)下表现卓越:在MetaWorld MT50任务中成功率提升至61.3%;在LIBERO-Long长程任务中以95.6%的成功率大幅超越基线;在真实机器人折叠布料任务中,成功率从20.0%跃升至60.0%,验证了其在复杂长程任务中的鲁棒性。

🎯 应用场景

该研究适用于需要长程规划与复杂操作的机器人控制领域,如家庭服务机器人、工业自动化装配及柔性物体操作。其高效的视觉压缩与规划能力,使得在计算资源受限的嵌入式机器人平台上部署高性能VLA策略成为可能,具有极高的实际应用价值。

📄 摘要(原文)

Vision-language-action (VLA) models increasingly rely on auxiliary world modules to plan over long horizons, yet how such modules should be parameterized on top of a pretrained VLA remains an open design question. Existing world-model-augmented VLAs typically pass the per-frame visual stream into the world module at high visual bandwidth and treat its rollout as a side product of action prediction; under a constrained adaptation budget on a frozen backbone, this leaves both the per-frame representation and the latent action coupling under-examined. We introduce OneWM-VLA, which compresses each view into a single semantic token per frame through an Adaptive Attention Pooling, and produces the resulting latent stream and the action trajectory under a single flow-matching objective rather than connecting them through a separate decoder. Empirically, we find that per-frame visual bandwidth can be reduced to a single token without compromising long-horizon performance under our setup. Trained with 14.71M LoRA parameters on a $π_0$ (2B) backbone, OneWM-VLA improves the average success rate from 47.9% to 61.3% on MetaWorld~MT50, reaches 95.6% on LIBERO-Long (vs.85.2% for $π_0$), and reaches 60.0% on the long-horizon deformable task Fold Cloth on a real Piper arm (vs.20.0% for $π_0$).