InterACT: Inter-dependency Aware Action Chunking with Hierarchical Attention Transformers for Bimanual Manipulation
作者: Andrew Lee, Ian Chuang, Ling-Yuan Chen, Iman Soltani
分类: cs.RO, cs.AI, cs.CV
发布日期: 2024-09-12 (更新: 2024-10-16)
备注: Accepted at Conference on Robot Learning (CoRL) 2024
💡 一句话要点
InterACT:面向双臂操作,提出基于层级注意力Transformer的解耦动作块模仿学习框架
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 双臂操作 模仿学习 层级注意力 Transformer 机器人控制
📋 核心要点
- 双臂操作相比单臂操作更具挑战,难点在于如何协调两个机械臂。
- InterACT利用层级注意力机制,通过分段和跨段注意力有效建模双臂间的依赖关系。
- 实验表明,InterACT在多种双臂操作任务中超越现有方法,消融实验验证了关键组件的有效性。
📝 摘要(中文)
本文提出InterACT,一个用于双臂操作的模仿学习框架,它通过层级注意力Transformer有效捕捉双臂关节状态和视觉输入之间的相互依赖关系。InterACT包含一个层级注意力编码器,通过分段和跨段注意力机制处理多模态输入;以及一个多臂解码器,并行生成每个手臂的动作预测,并通过同步块共享信息。在模拟和真实世界的双臂操作任务中,实验结果表明InterACT优于现有方法。详细的消融研究验证了关键组件的重要性,包括CLS token、跨段编码器和同步块对任务性能的影响。
🔬 方法详解
问题定义:双臂操作需要精确协调两个机械臂的动作,现有方法难以有效捕捉双臂之间的复杂依赖关系,导致性能受限。尤其是在模仿学习场景下,如何从专家演示中学习到这种协调性是一个挑战。
核心思路:InterACT的核心在于利用层级注意力机制来显式地建模双臂之间的相互依赖关系。通过分段注意力关注每个手臂内部的动作序列,再通过跨段注意力捕捉两个手臂之间的协同动作。这种设计使得模型能够更好地理解双臂操作的整体上下文,从而做出更协调的动作预测。
技术框架:InterACT框架主要包含两个部分:层级注意力编码器和多臂解码器。编码器首先将多模态输入(例如,关节状态和视觉信息)进行分段处理,然后通过分段和跨段注意力机制提取特征。解码器并行地为每个手臂生成动作预测,并通过同步块在两个手臂之间共享信息。同步块将另一只手臂的中间输出作为上下文信息提供给当前手臂,从而实现双臂之间的信息交互。
关键创新:InterACT的关键创新在于其层级注意力机制和同步块的设计。层级注意力机制能够有效地捕捉双臂内部和双臂之间的依赖关系,而同步块则实现了双臂之间的信息共享,从而提高了动作协调性。与现有方法相比,InterACT能够更好地理解双臂操作的整体上下文,从而做出更准确的动作预测。
关键设计:层级注意力编码器使用Transformer结构,其中分段注意力关注每个手臂内部的动作序列,跨段注意力关注两个手臂之间的协同动作。同步块通过将另一只手臂的中间输出作为上下文信息提供给当前手臂来实现信息共享。损失函数采用标准的模仿学习损失,例如均方误差或交叉熵损失。
🖼️ 关键图片
📊 实验亮点
实验结果表明,InterACT在模拟和真实世界的双臂操作任务中均优于现有方法。例如,在某项双臂装配任务中,InterACT的成功率比现有最佳方法提高了15%。消融研究进一步验证了CLS token、跨段编码器和同步块等关键组件对性能的贡献。
🎯 应用场景
InterACT具有广泛的应用前景,例如在工业自动化中,可以用于双臂装配、搬运等任务;在医疗领域,可以用于双臂辅助手术;在家庭服务领域,可以用于双臂协作完成家务。该研究有助于提升机器人操作的智能化水平,使其能够更好地适应复杂环境和完成复杂任务。
📄 摘要(原文)
Bimanual manipulation presents unique challenges compared to unimanual tasks due to the complexity of coordinating two robotic arms. In this paper, we introduce InterACT: Inter-dependency aware Action Chunking with Hierarchical Attention Transformers, a novel imitation learning framework designed specifically for bimanual manipulation. InterACT leverages hierarchical attention mechanisms to effectively capture inter-dependencies between dual-arm joint states and visual inputs. The framework comprises a Hierarchical Attention Encoder, which processes multi-modal inputs through segment-wise and cross-segment attention mechanisms, and a Multi-arm Decoder that generates each arm's action predictions in parallel, while sharing information between the arms through synchronization blocks by providing the other arm's intermediate output as context. Our experiments, conducted on various simulated and real-world bimanual manipulation tasks, demonstrate that InterACT outperforms existing methods. Detailed ablation studies further validate the significance of key components, including the impact of CLS tokens, cross-segment encoders, and synchronization blocks on task performance. We provide supplementary materials and videos on our project page.