From Abstraction to Instantiation: Learning Behavioral Representation for Vision-Language-Action Model
作者: Bing Hu, Zaijing Li, Rui Shao, Junda Chen, April Hua Liu, Wei-Shi Zheng, Liqiang Nie
分类: cs.CV
发布日期: 2026-05-21
期刊: ICML2026 Spotlight
💡 一句话要点
提出BehaviorVLA,通过学习时序连贯的行为表示,提升VLA模型在分布偏移下的泛化能力。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言动作模型 行为表示学习 长时序建模 因果Mamba Sim-to-Real迁移
📋 核心要点
- VLA模型在不同环境下的泛化能力不足,现有方法在长时序建模和动态对齐方面存在局限。
- BehaviorVLA通过学习时序连贯的行为表示,利用VBE编码长时程信息,PBD解码精确动作。
- 在多个数据集上取得了SOTA结果,并在sim-to-real迁移中展现出更高的数据效率和泛化性。
📝 摘要(中文)
视觉-语言-动作(VLA)模型在分布偏移下性能通常会下降,因为它们难以学习跨不同环境的通用行为表示。现有方法试图通过以动作为中心的潜在变量来构建行为表示,但往往受到短时程时间片段和静态执行对齐的限制,导致复杂场景中行为不一致。为了解决这些限制,我们提出了BehaviorVLA,一个通过学习时间连贯的行为表示来促进鲁棒操作的框架。我们的方法包含两个对称组件:(1) 视觉运动行为编码器(VBE),它利用基于因果Mamba的架构将长时程轨迹信息聚合为统一的行为表示;(2) 相位条件行为解码器(PBD),它通过动态地将任务级先验与实时执行进度对齐,将该表示解码为精确的动作。在RoboTwin 2.0、LIBERO和CALVIN上的实验分别展示了58%、98%和4.36(Avg.Len)的最先进成功率。值得注意的是,在真实世界的sim-to-real迁移中,BehaviorVLA仅使用50%的演示数据就达到了OpenVLA-OFT的性能,展示了其卓越的数据效率和泛化能力。
🔬 方法详解
问题定义:VLA模型在实际应用中,由于环境变化等因素,常常面临分布偏移的问题,导致性能下降。现有的方法通常侧重于学习以动作为中心的潜在变量,但这些方法难以捕捉长时序的行为依赖关系,并且缺乏动态调整执行过程的能力,从而导致行为不一致。
核心思路:BehaviorVLA的核心思路是学习一种时序连贯的行为表示,这种表示能够捕捉长时程的轨迹信息,并能够根据任务的执行进度动态地调整动作输出。通过将抽象的行为表示与具体的动作执行相结合,从而提高VLA模型在不同环境下的泛化能力。
技术框架:BehaviorVLA框架包含两个主要模块:视觉运动行为编码器(VBE)和相位条件行为解码器(PBD)。VBE负责将长时程的视觉和运动信息编码成统一的行为表示,采用基于因果Mamba的架构,能够有效地捕捉时序依赖关系。PBD则负责将行为表示解码成具体的动作,通过动态地将任务级先验与实时执行进度对齐,从而实现精确的动作控制。
关键创新:BehaviorVLA的关键创新在于其学习时序连贯行为表示的方式。与现有方法相比,BehaviorVLA能够更好地捕捉长时程的依赖关系,并且能够根据任务的执行进度动态地调整动作输出。此外,VBE中使用的因果Mamba架构也能够有效地处理长时序数据。
关键设计:VBE采用因果Mamba架构,能够有效地捕捉长时序依赖关系。PBD通过将任务级先验与实时执行进度对齐,实现精确的动作控制。损失函数的设计也至关重要,需要平衡行为表示的抽象性和动作执行的精确性。具体的参数设置和网络结构细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
BehaviorVLA在RoboTwin 2.0、LIBERO和CALVIN数据集上取得了最先进的成功率,分别为58%、98%和4.36(Avg.Len)。更重要的是,在sim-to-real迁移实验中,BehaviorVLA仅使用50%的演示数据就达到了OpenVLA-OFT的性能,这表明BehaviorVLA具有更高的数据效率和更好的泛化能力。
🎯 应用场景
BehaviorVLA具有广泛的应用前景,例如机器人操作、自动驾驶、游戏AI等领域。它可以用于训练机器人完成复杂的任务,例如物体抓取、装配等。在自动驾驶领域,它可以用于提高车辆在复杂环境下的感知和决策能力。在游戏AI领域,它可以用于创建更加智能和逼真的游戏角色。
📄 摘要(原文)
Vision-Language-Action (VLA) models often suffer from performance degradation under distribution shifts, as they struggle to learn generalized behavior representations across varying environments. While existing approaches attempt to construct behavior representations through action-centric latent variables, they are often limited by short-horizon temporal fragmentation and static execution-alignment, leading to inconsistent behaviors in complex scenarios. To address these limitations, we propose \textbf{BehaviorVLA}, a framework that facilitates robust manipulation through the learning of a temporally coherent behavioral representations. Our approach features two symmetric components: (1) the \textbf{Visuomotor Behavior Encoder (VBE)}, which utilizes a causal Mamba-based architecture to aggregate long-horizon trajectory information into a unified behavior representation; and (2) the \textbf{Phase-conditioned Behavior Decoder (PBD)}, which decodes this representation into precise actions by dynamically aligning task-level priors with real-time execution progress. Experiments on RoboTwin 2.0, LIBERO, and CALVIN demonstrate state-of-the-art success rates of 58\%, 98\%, and 4.36 (Avg.Len), respectively. Notably, in real-world sim-to-real transfer, BehaviorVLA matches the performance of OpenVLA-OFT using only 50\% of the demonstration data, showcasing its superior data efficiency and generalization.