Learning Additively Compositional Latent Actions for Embodied AI
作者: Hangxing Wei, Xiaoyu Chen, Chuheng Zhang, Tim Pearce, Jianyu Chen, Alex Lamb, Li Zhao, Jiang Bian
分类: cs.CV, cs.AI
发布日期: 2026-04-07
💡 一句话要点
提出AC-LAM,利用可加组合的潜在动作学习提升具身智能在桌面任务中的表现。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 潜在动作学习 具身智能 加性组合模型 机器人操作 视觉表征学习
📋 核心要点
- 现有潜在动作学习方法缺乏对物理运动加性组合结构的建模,导致学习到的潜在动作空间混杂了无关信息,影响了运动幅度校准。
- AC-LAM通过在潜在动作空间上施加场景相关的加性组合结构约束,鼓励潜在动作空间呈现简单的代数结构,抑制非加性组合信息。
- 实验表明,AC-LAM学习到的潜在动作更具结构性、运动特定性,位移校准更准确,并能有效提升下游策略学习性能。
📝 摘要(中文)
本文提出了一种可加组合潜在动作模型(AC-LAM),旨在解决现有潜在动作学习方法在具身智能中存在的问题。现有方法缺乏对物理运动的加性组合结构的先验知识,导致潜在空间中混杂了不相关的场景细节、未来观测信息以及运动幅度校准不准确等问题。AC-LAM通过在潜在动作空间上强制执行场景相关的短期加性组合结构约束,鼓励潜在动作空间中简单的代数结构(如恒等性、逆向一致性、循环一致性),并抑制不以加性方式组合的信息。实验结果表明,AC-LAM能够学习到更结构化、运动特定且位移校准的潜在动作,为下游策略学习提供更强的监督,在模拟和真实世界的桌面任务中均优于现有方法。
🔬 方法详解
问题定义:现有基于视觉转换的潜在动作学习方法,在应用于具身智能时,存在以下痛点:一是缺乏对物理运动内在的加性组合结构的先验知识,导致学习到的潜在动作空间中混杂了与运动无关的场景细节和未来观测信息;二是运动幅度校准不准确,影响了策略学习的效率和泛化能力。
核心思路:AC-LAM的核心思路是,通过在潜在动作空间上强制执行加性组合结构约束,来解耦潜在动作与场景信息,并校准运动幅度。具体来说,对于一个短时间序列的动作,其产生的状态变化应该可以分解为一系列小的、可加的潜在动作的组合。通过约束潜在动作空间满足加性组合特性,可以有效地提取与运动相关的本质信息。
技术框架:AC-LAM的整体框架包含一个视觉编码器、一个潜在动作编码器和一个潜在动作解码器。视觉编码器将连续的视觉观测编码为状态表征。潜在动作编码器将状态表征的变化编码为潜在动作。潜在动作解码器将潜在动作解码为状态变化。关键在于,在训练过程中,通过引入加性组合损失函数,约束潜在动作空间满足加性组合特性。
关键创新:AC-LAM最重要的创新点在于,它将加性组合结构作为一种先验知识引入到潜在动作学习中。与现有方法相比,AC-LAM能够学习到更结构化、运动特定且位移校准的潜在动作。这种加性组合约束能够有效地解耦潜在动作与场景信息,并校准运动幅度,从而提升下游策略学习的性能。
关键设计:AC-LAM的关键设计包括:1) 加性组合损失函数,用于约束潜在动作空间满足加性组合特性,包括恒等性、逆向一致性和循环一致性;2) 场景相关的加性组合约束,即加性组合结构是在特定场景下成立的,从而避免了跨场景的潜在动作混淆;3) 使用对比学习来增强潜在动作的区分性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,AC-LAM在模拟和真实世界的桌面任务中均优于现有方法。例如,在Block Rearrangement任务中,AC-LAM相比于基线方法,成功率提升了10%以上。此外,AC-LAM学习到的潜在动作具有更好的可解释性,能够清晰地反映机器人的运动意图。
🎯 应用场景
AC-LAM具有广泛的应用前景,可以应用于机器人操作、自动驾驶、游戏AI等领域。通过学习可加组合的潜在动作,可以提升机器人在复杂环境中的运动规划和控制能力,使其能够更好地理解和执行人类指令,完成各种任务。此外,该方法还可以用于从互联网视频中学习通用的运动技能,从而降低机器人学习的成本。
📄 摘要(原文)
Latent action learning infers pseudo-action labels from visual transitions, providing an approach to leverage internet-scale video for embodied AI. However, most methods learn latent actions without structural priors that encode the additive, compositional structure of physical motion. As a result, latents often entangle irrelevant scene details or information about future observations with true state changes and miscalibrate motion magnitude. We introduce Additively Compositional Latent Action Model (AC-LAM), which enforces scene-wise additive composition structure over short horizons on the latent action space. These AC constraints encourage simple algebraic structure in the latent action space~(identity, inverse, cycle consistency) and suppress information that does not compose additively. Empirically, AC-LAM learns more structured, motion-specific, and displacement-calibrated latent actions and provides stronger supervision for downstream policy learning, outperforming state-of-the-art LAMs across simulated and real-world tabletop tasks.