The Compression Gap: Why Discrete Tokenization Limits Vision-Language-Action Model Scaling
作者: Takuya Shiba
分类: cs.RO, cs.CV, cs.LG
发布日期: 2026-04-06
💡 一句话要点
揭示离散token化限制VLA模型扩展的原因:压缩瓶颈理论
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言-动作模型 信息瓶颈 离散动作空间 连续动作空间 具身智能 模型扩展性 压缩差距
📋 核心要点
- 现有VLA模型在离散动作空间下,视觉编码器升级无法有效提升操作性能,存在扩展瓶颈。
- 论文提出“压缩差距”理论,指出信息瓶颈位置决定了VLA模型的扩展行为,码本容量是关键。
- 实验证明,连续动作空间模型能充分利用编码器升级,而离散动作空间模型受限于码本容量。
📝 摘要(中文)
通过升级视觉编码器来扩展视觉-语言-动作(VLA)模型,通常被认为可以提高下游操作性能,就像在视觉-语言建模中一样。然而,当动作被表示为离散token时,这种期望会失效。本文通过一个信息论原理,即“压缩差距”,解释了原因:在任何视觉运动管道中,扩展行为都受最严格的信息瓶颈位置控制。当动作是连续的(例如,扩散策略)时,视觉编码器是约束条件,升级它可以直接提高性能。当动作通过固定容量的码本离散化(例如,OAT)时,码本成为约束条件,编码器的改进无法传递过去,无论上游表示多么丰富。在LIBERO基准上,通过三个方面的证据验证了这一原理:阶乘实验表明,编码器升级使扩散策略提高了21个百分点以上,而OAT的增益在模型规模上显著减弱;跨四个编码器的编码器质量梯度证实,扩散策略单调地跟踪编码器质量,而OAT保持不变;码本大小实验表明,放宽码本容量可以部分恢复编码器敏感性,为瓶颈假设提供了因果证据。研究结果表明,物理人工智能的扩展需要识别管道中信息瓶颈的位置,而不是统一增加模型或数据大小。
🔬 方法详解
问题定义:现有视觉-语言-动作(VLA)模型在处理具身智能任务时,通常期望通过提升视觉编码器的能力来提高整体性能。然而,当动作空间被离散化为token序列时,这种提升效果并不明显,甚至停滞不前。现有方法未能充分理解动作离散化对模型扩展性的影响,以及信息瓶颈在VLA pipeline中的作用。
核心思路:论文的核心思路是提出“压缩差距”理论,认为在VLA模型中,信息瓶颈的位置决定了模型整体的扩展性能。当动作空间是连续的时,视觉编码器是信息瓶颈,提升编码器能力可以直接提升性能。而当动作空间被离散化时,固定容量的码本成为了新的信息瓶颈,限制了编码器能力的传递。因此,即使提升了视觉编码器的能力,由于码本的限制,下游任务的性能也无法得到有效提升。
技术框架:论文主要研究了两种动作表示方式:连续动作空间(使用Diffusion Policy)和离散动作空间(使用OAT)。实验框架包括视觉编码器、动作表示模块和下游操作任务。通过控制视觉编码器的质量和码本的大小,来观察不同动作表示方式下,模型性能的变化。实验在LIBERO基准上进行,评估了不同模型在操作任务上的成功率。
关键创新:论文最重要的创新点在于提出了“压缩差距”理论,揭示了离散动作空间下VLA模型扩展受限的根本原因。该理论指出,信息瓶颈的位置决定了模型整体的扩展性能,而不仅仅是模型或数据的大小。这一发现对于理解和改进VLA模型的扩展性具有重要意义。
关键设计:论文的关键设计包括:1) 使用不同质量的视觉编码器(例如,不同大小的ResNet)来模拟编码器升级;2) 使用Diffusion Policy作为连续动作空间的代表,OAT作为离散动作空间的代表;3) 通过改变OAT码本的大小来验证码本容量对模型性能的影响;4) 在LIBERO基准上进行实验,评估模型在操作任务上的成功率。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在LIBERO基准上,升级视觉编码器可以使Diffusion Policy的性能提升超过21个百分点,而OAT的性能提升则显著减弱。此外,实验还发现,放宽OAT码本的容量可以部分恢复编码器敏感性,验证了码本容量是信息瓶颈的假设。这些结果有力地支持了“压缩差距”理论。
🎯 应用场景
该研究成果可应用于机器人操作、自动驾驶、游戏AI等领域。通过识别并消除VLA模型中的信息瓶颈,可以更有效地提升模型的性能和泛化能力,从而实现更智能、更高效的自动化系统。未来的研究可以探索更有效的动作表示方法,以及如何动态调整码本容量,以适应不同的任务需求。
📄 摘要(原文)
Scaling Vision-Language-Action (VLA) models by upgrading the vision encoder is expected to improve downstream manipulation performance--as it does in vision-language modeling. We show that this expectation fails when actions are represented as discrete tokens, and explain why through an information-theoretic principle we call the Compression Gap: in any visuomotor pipeline, scaling behavior is governed by the location of the tightest information bottleneck. When actions are continuous (e.g., Diffusion Policy), the vision encoder is the binding constraint, and upgrading it directly improves performance. When actions are discretized through a fixed-capacity codebook (e.g., OAT), the codebook becomes the binding constraint, and encoder improvements cannot propagate past it--regardless of how rich the upstream representation is. We validate this principle on the LIBERO benchmark with three lines of evidence: a factorial experiment showing that encoder upgrades improve Diffusion Policy by over 21 percentage points while OAT gains are substantially attenuated across model scales; an encoder quality gradient across four encoders confirming that Diffusion Policy tracks encoder quality monotonically while OAT remains flat; and a codebook size experiment demonstrating that relaxing codebook capacity partially recovers encoder sensitivity, providing causal evidence for the bottleneck hypothesis. Our findings reveal that scaling in Physical AI requires identifying where information bottlenecks lie in the pipeline, rather than uniformly increasing model or data size.