BayesianVLA: Bayesian Decomposition of Vision Language Action Models via Latent Action Queries

📄 arXiv: 2601.15197v1 📥 PDF

作者: Shijie Lian, Bin Yu, Xiaopeng Lin, Laurence T. Yang, Zhaolong Shen, Changti Wu, Yuzhuo Miao, Cong Huang, Kai Chen

分类: cs.AI, cs.CL, cs.CV, cs.RO

发布日期: 2026-01-21


💡 一句话要点

提出BayesianVLA以解决视觉语言行动模型的泛化问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言行动 机器人操作 模型泛化 潜在行动查询 条件互信息 双分支架构 信息崩溃

📋 核心要点

  1. 现有的VLA模型在处理新指令和复杂多任务时表现不佳,主要由于数据集偏差导致的信息崩溃现象。
  2. BayesianVLA框架通过引入潜在行动查询和双分支架构,优化模型以最大化指令与行动之间的条件互信息。
  3. 在SimplerEnv和RoboCasa的广泛实验中,BayesianVLA在OOD场景下实现了11.3%的性能提升,验证了其有效性。

📝 摘要(中文)

视觉语言行动(VLA)模型在机器人操作中展现出潜力,但在新指令或复杂多任务场景中常常难以泛化。本文识别出当前训练范式中的一个关键病理,即目标驱动的数据收集导致数据集偏差,造成指令与视觉观察之间的条件互信息消失,称之为信息崩溃。为了解决这一问题,本文提出了BayesianVLA框架,通过引入可学习的潜在行动查询,构建双分支架构来估计视觉优先$p(a ext{ | } v)$和语言条件后验$π(a ext{ | } v, ext{ℓ})$。该方法在不需要新数据的情况下显著提高了模型的泛化能力。

🔬 方法详解

问题定义:本文旨在解决视觉语言行动模型在新指令和复杂多任务场景中的泛化能力不足问题。现有方法在目标驱动的数据收集过程中,导致数据集偏差,使得指令与视觉观察之间的条件互信息消失,形成信息崩溃现象。

核心思路:论文提出BayesianVLA框架,通过引入可学习的潜在行动查询,构建双分支架构,分别估计视觉优先和语言条件后验,从而增强模型对语言指令的遵循能力。

技术框架:BayesianVLA的整体架构包括两个主要模块:视觉优先模块$p(a ext{ | } v)$和语言条件后验模块$π(a ext{ | } v, ext{ℓ})$。通过优化模型以最大化指令与行动之间的条件点互信息,来实现对语言指令的有效解释。

关键创新:最重要的技术创新在于引入了潜在行动查询和双分支架构,这与现有方法的单一视觉策略形成了本质区别,使得模型能够更好地结合语言信息。

关键设计:在损失函数设计上,论文采用了条件点互信息最大化的目标,惩罚仅依赖视觉的快捷方式,同时奖励能够明确解释语言指令的行动。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在SimplerEnv和RoboCasa的实验中,BayesianVLA在OOD场景下实现了11.3%的性能提升,显著优于基线模型,验证了该方法在增强模型泛化能力方面的有效性。

🎯 应用场景

该研究的潜在应用领域包括机器人操作、智能家居系统和人机交互等。通过提高模型对语言指令的理解和执行能力,BayesianVLA能够在复杂环境中实现更高效的任务执行,具有重要的实际价值和广泛的未来影响。

📄 摘要(原文)

Vision-Language-Action (VLA) models have shown promise in robot manipulation but often struggle to generalize to new instructions or complex multi-task scenarios. We identify a critical pathology in current training paradigms where goal-driven data collection creates a dataset bias. In such datasets, language instructions are highly predictable from visual observations alone, causing the conditional mutual information between instructions and actions to vanish, a phenomenon we term Information Collapse. Consequently, models degenerate into vision-only policies that ignore language constraints and fail in out-of-distribution (OOD) settings. To address this, we propose BayesianVLA, a novel framework that enforces instruction following via Bayesian decomposition. By introducing learnable Latent Action Queries, we construct a dual-branch architecture to estimate both a vision-only prior $p(a \mid v)$ and a language-conditioned posterior $π(a \mid v, \ell)$. We then optimize the policy to maximize the conditional Pointwise Mutual Information (PMI) between actions and instructions. This objective effectively penalizes the vision shortcut and rewards actions that explicitly explain the language command. Without requiring new data, BayesianVLA significantly improves generalization. Extensive experiments across on SimplerEnv and RoboCasa demonstrate substantial gains, including an 11.3% improvement on the challenging OOD SimplerEnv benchmark, validating the ability of our approach to robustly ground language in action.