ALAM: Algebraically Consistent Latent Transitions for Vision-Language-Action Models
作者: Zuojin Tang, Haoyun Liu, Xinyuan Chang, Changjie Wu, Dongjie Huo, Yandan Yang, Bin Liu, Zhejia Cai, Feng Xiong, Mu Xu, jiachen Luo, De Ma, Zhiheng Ma, Gang Pan
分类: cs.RO, cs.AI, cs.CV
发布日期: 2026-05-11
💡 一句话要点
提出代数一致性潜在动作模型(ALAM),通过结构化视频先验提升视觉-语言-动作(VLA)模型的泛化能力。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 具身智能 视觉-语言-动作模型 潜在动作模型 流匹配 表征学习 机器人操作
📋 核心要点
- 现有VLA模型严重依赖稀缺的动作标注数据,且现有的潜在动作模型提取的特征缺乏策略生成所需的结构化属性。
- ALAM通过引入代数一致性约束(组合与逆向一致性),将无动作视频转化为具有局部可加性的结构化潜在转换空间。
- 实验证明,ALAM在MetaWorld和LIBERO基准上大幅提升了任务成功率,并展现出在真实机器人操作任务中的强泛化能力。
📝 摘要(中文)
视觉-语言-动作(VLA)模型受限于稀缺的动作标注机器人数据,而无动作视频蕴含丰富的物理世界演变规律。现有的潜在动作模型虽能从视频中提取先验,但其重构训练得到的潜在编码往往缺乏策略生成所需的结构化特征。本文提出ALAM(代数一致性潜在动作模型),将无动作视频中的时间关系转化为结构化监督。ALAM通过组合一致性和逆向一致性对潜在转换进行正则化,构建了局部可加的转换空间。在下游任务中,ALAM冻结预训练编码器,将其潜在转换序列作为辅助生成目标,与机器人动作共同进行联合流匹配(Joint Flow Matching)训练。实验表明,ALAM在MetaWorld MT50和LIBERO基准测试中显著提升了成功率,并有效增强了长程操作任务的性能。
🔬 方法详解
问题定义:现有潜在动作模型主要通过重构损失训练,导致潜在空间缺乏物理一致性,难以直接用于策略生成。核心痛点在于如何从海量无动作视频中提取具备“可组合性”和“可逆性”的结构化先验,以辅助机器人策略学习。
核心思路:引入代数一致性约束,强制潜在空间满足局部可加性。通过将视频帧三元组的演变建模为潜在空间中的向量转换,利用组合一致性(A+B=C)和逆向一致性(A-A=0)作为正则化手段,使潜在转换具备明确的几何结构。
技术框架:ALAM包含两个阶段:首先,在无动作视频上训练一个具备代数一致性的潜在转换模型;其次,在VLA学习阶段,冻结该编码器,将潜在转换序列作为辅助目标,与机器人动作通过联合流匹配(Joint Flow Matching)进行协同训练。
关键创新:提出了代数一致性正则化,将物理世界的时序演变映射为潜在空间中的代数运算。这种设计使得策略模型无需显式的潜在到动作解码器,即可直接利用潜在空间的几何结构进行动作生成。
关键设计:核心损失函数包括重构损失、组合一致性损失(Compositional Consistency)和逆向一致性损失(Reversal Consistency)。在策略生成端,采用联合流匹配目标,将潜在转换的几何先验与动作生成过程深度耦合,显著降低了长程任务的累积误差。
🖼️ 关键图片
📊 实验亮点
ALAM在表征探测实验中,将可加性和可逆性误差降低了25-85倍。在MetaWorld MT50基准上,成功率从47.9%提升至85.0%;在LIBERO基准上,成功率从94.1%提升至98.1%。消融实验证实,代数结构化潜在转换与联合流匹配的协同效应是性能提升的关键。
🎯 应用场景
该研究主要应用于机器人操作领域,特别是在缺乏大规模动作标注数据的场景下,通过利用海量无动作视频数据提升机器人的泛化能力。其技术框架可广泛应用于复杂环境下的长程任务规划、多任务机器人操作以及具身智能体的行为生成,具有极高的工业应用价值。
📄 摘要(原文)
Vision-language-action (VLA) models remain constrained by the scarcity of action-labeled robot data, whereas action-free videos provide abundant evidence of how the physical world changes. Latent action models offer a promising way to extract such priors from videos, but reconstruction-trained latent codes are not necessarily suitable for policy generation: they may predict future observations while lacking the structure needed to be reused or generated coherently with robot actions. We introduce ALAM (Algebraic Latent Action Model), an Algebraically Consistent Latent Action Model that turns temporal relations in action-free video into structural supervision. Given frame triplets, ALAM learns latent transitions that are grounded by reconstruction while being regularized by composition and reversal consistency, encouraging a locally additive transition space. For downstream VLA learning, we freeze the pretrained encoder and use its latent transition sequences as auxiliary generative targets, co-generated with robot actions under a joint flow-matching objective. This couples structured latent transitions with flow-based policy generation, allowing the policy to exploit ALAM's locally consistent transition geometry without requiring latent-to-action decoding. Representation probes show that ALAM reduces additivity and reversibility errors by 25-85 times over unstructured latent-action baselines and improves long-horizon cumulative reconstruction. When transferred to VLA policies, ALAM raises the average success rate from 47.9% to 85.0% on MetaWorld MT50 and from 94.1% to 98.1% on LIBERO, with consistent gains on real-world manipulation tasks. Ablations further confirm that the strongest improvements arise from the synergy between algebraically structured latent transitions and joint flow matching.