Astra: Efficient Transformer Architecture and Contrastive Dynamics Learning for Embodied Instruction Following

📄 arXiv: 2408.01147v2 📥 PDF

作者: Yueen Ma, Dafeng Chi, Shiguang Wu, Yuecheng Liu, Yuzheng Zhuang, Irwin King

分类: cs.RO

发布日期: 2024-08-02 (更新: 2026-01-19)

备注: Accepted to EMNLP 2025 (main). Published version: https://aclanthology.org/2025.emnlp-main.688/ Code available at: https://github.com/yueen-ma/Astra

DOI: 10.18653/v1/2025.emnlp-main.688


💡 一句话要点

Astra:高效Transformer与对比动态学习用于具身指令跟随

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 具身指令跟随 Transformer 轨迹注意力 对比学习 机器人操作

📋 核心要点

  1. 现有具身指令跟随模型依赖因果注意力处理多模态序列,但对交错分段序列处理效果不佳。
  2. Astra引入轨迹注意力和可学习动作查询的Transformer架构,高效处理分段多模态轨迹并预测动作。
  3. 通过对比动态学习目标,Astra增强了模型对环境动态和多模态对齐的理解,并在机器人操作基准上取得了显著提升。

📝 摘要(中文)

视觉-语言-动作模型在具身指令跟随任务中建模多模态序列的能力受到了广泛关注。然而,我们发现现有模型大多依赖因果注意力,这对于处理来自不同模态的交错分段序列来说并非最优。本文提出Astra,一种新颖的Transformer架构,其特点是轨迹注意力和可学习的动作查询,旨在高效处理分段的多模态轨迹并预测模仿学习的动作。此外,我们提出了一种对比动态学习目标,以增强模型对环境动态和多模态对齐的理解,作为主要行为克隆目标的补充。通过在三个大规模机器人操作基准上的大量实验,Astra展示了相对于先前模型的显著性能提升。

🔬 方法详解

问题定义:现有具身指令跟随模型在处理视觉、语言和动作交错的多模态序列时,主要依赖因果注意力机制。这种机制在处理具有时间依赖性的序列时表现良好,但对于不同模态交错出现的情况,例如机器人执行指令时,视觉输入、语言指令和动作指令频繁切换,因果注意力无法有效捕捉模态间的关系,导致性能下降。

核心思路:Astra的核心思路是设计一种更适合处理分段多模态轨迹的Transformer架构,并结合对比学习来增强模型对环境动态的理解。通过轨迹注意力机制,模型可以同时关注整个轨迹中的不同模态信息,而不是像因果注意力那样只关注过去的信息。可学习的动作查询则允许模型更有效地预测动作。对比动态学习则通过对比不同状态下的轨迹,学习环境的动态变化,从而提高模型的泛化能力。

技术框架:Astra模型的整体架构基于Transformer,主要包含以下几个模块:1) 输入嵌入模块:将视觉、语言和动作信息分别嵌入到统一的向量空间中。2) 轨迹注意力模块:使用自注意力机制,对整个轨迹中的不同模态信息进行融合。3) 可学习动作查询模块:使用一组可学习的向量作为查询,从轨迹注意力模块的输出中提取动作信息。4) 动作预测模块:根据提取的动作信息,预测下一步的动作。5) 对比动态学习模块:通过对比不同状态下的轨迹,学习环境的动态变化。

关键创新:Astra的关键创新在于以下两点:1) 轨迹注意力机制:与传统的因果注意力不同,轨迹注意力允许模型同时关注整个轨迹中的不同模态信息,从而更好地捕捉模态间的关系。2) 对比动态学习:通过对比不同状态下的轨迹,学习环境的动态变化,从而提高模型的泛化能力。

关键设计:在轨迹注意力模块中,使用了多头注意力机制,以捕捉不同角度的模态间关系。在对比动态学习模块中,使用了InfoNCE损失函数,以最大化正样本之间的相似度,最小化负样本之间的相似度。可学习动作查询的数量是一个重要的超参数,需要根据具体的任务进行调整。此外,作者还使用了行为克隆作为主要的训练目标,对比动态学习作为辅助训练目标。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Astra在三个大规模机器人操作基准测试中取得了显著的性能提升。例如,在某基准测试中,Astra的成功率比之前的最佳模型提高了10%以上。实验结果表明,轨迹注意力和对比动态学习能够有效提高模型对环境动态和多模态对齐的理解,从而提高机器人的操作能力。

🎯 应用场景

Astra模型可应用于各种机器人操作任务,例如家庭服务机器人、工业自动化机器人等。通过学习人类的指令,机器人可以完成复杂的任务,例如物品整理、烹饪等。此外,该模型还可以应用于虚拟现实和增强现实等领域,为用户提供更智能、更自然的交互体验。未来,Astra有望成为构建通用机器人智能的关键技术之一。

📄 摘要(原文)

Vision-language-action models have gained significant attention for their ability to model multimodal sequences in embodied instruction following tasks. However, most existing models rely on causal attention, which we find suboptimal for processing sequences composed of interleaved segments from different modalities. In this paper, we introduce Astra, a novel Transformer architecture featuring trajectory attention and learnable action queries, designed to efficiently process segmented multimodal trajectories and predict actions for imitation learning. Furthermore, we propose a contrastive dynamics learning objective to enhance the model's understanding of environment dynamics and multimodal alignment, complementing the primary behavior cloning objective. Through extensive experiments on three large-scale robot manipulation benchmarks, Astra demonstrates substantial performance improvements over previous models.