Bimanual Robot Manipulation via Multi-Agent In-Context Learning
作者: Alessio Palma, Indro Spinelli, Vignesh Prasad, Luca Scofano, Yufeng Jin, Georgia Chalvatzaki, Fabio Galasso
分类: cs.RO, cs.AI, cs.MA
发布日期: 2026-04-22
💡 一句话要点
BiCICLe:基于多智能体上下文学习的双臂机器人操作框架
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 双臂机器人 上下文学习 多智能体 语言模型 机器人操作
📋 核心要点
- 双臂机器人操作面临高维动作空间和严格的臂间协调约束,传统上下文学习方法难以有效应用。
- BiCICLe将双臂控制分解为多智能体问题,利用LLM进行单臂动作预测,降低了动作空间的复杂性。
- 实验表明,BiCICLe在多个任务上超越了现有无训练和有监督方法,并展现出良好的泛化能力。
📝 摘要(中文)
本文提出BiCICLe(Bimanual Coordinated In-Context Learning),这是一个无需微调即可实现标准LLM执行少量样本双臂操作的首个框架。BiCICLe将双臂控制建模为多智能体领导者-跟随者问题,将动作空间解耦为顺序的、条件化的单臂预测。该方法自然地扩展到Arms' Debate(一种迭代改进过程),并引入第三个LLM作为裁判来评估和选择最合理的协调轨迹。在TWIN基准测试的13个任务上评估表明,BiCICLe实现了高达71.1%的平均成功率,比最佳的无训练基线高出6.7个百分点,并且超过了大多数监督方法。此外,本文还展示了BiCICLe在新的任务上的强大的少量样本泛化能力。
🔬 方法详解
问题定义:双臂机器人操作需要同时控制两个机械臂,动作空间维度高,臂间需要紧密协调。现有的上下文学习方法难以处理如此高维度的动作空间,并且难以保证臂间的协调性,导致操作成功率低。
核心思路:将双臂控制问题分解为多智能体领导者-跟随者问题。首先由一个LLM(领导者)预测一个机械臂的动作,然后另一个LLM(跟随者)根据领导者的动作预测另一个机械臂的动作。通过这种方式,将高维联合动作空间分解为两个低维的单臂动作空间,简化了学习过程。
技术框架:BiCICLe框架包含以下几个主要模块:1) 领导者LLM:负责预测第一个机械臂的动作。2) 跟随者LLM:负责根据领导者LLM的输出预测第二个机械臂的动作。3) Arms' Debate:一个迭代改进过程,通过多次迭代,不断优化两个机械臂的动作。4) LLM-as-Judge:使用第三个LLM作为裁判,评估和选择最合理的协调轨迹。
关键创新:将双臂控制问题建模为多智能体问题,并利用LLM进行单臂动作预测。这种分解方式有效地降低了动作空间的复杂性,使得上下文学习方法能够应用于双臂机器人操作。此外,引入了Arms' Debate和LLM-as-Judge机制,进一步提高了操作的成功率和鲁棒性。
关键设计:BiCICLe使用标准的LLM作为领导者和跟随者,无需进行额外的微调。Arms' Debate通过多次迭代,不断优化两个机械臂的动作,每次迭代都会根据LLM-as-Judge的评估结果选择最优的动作。LLM-as-Judge使用自然语言描述来评估轨迹的合理性,并选择最符合任务要求的轨迹。
🖼️ 关键图片
📊 实验亮点
BiCICLe在TWIN基准测试的13个任务上取得了显著的成果,平均成功率高达71.1%,比最佳的无训练基线高出6.7个百分点,并且超过了大多数有监督方法。此外,BiCICLe在新的任务上展示了强大的少量样本泛化能力,表明其具有良好的适应性和鲁棒性。
🎯 应用场景
BiCICLe框架可应用于各种需要双臂协调操作的场景,例如:装配线上的零件组装、医疗手术中的辅助操作、家庭服务机器人中的物品整理等。该研究降低了双臂机器人操作的开发难度,使得机器人能够更好地适应复杂和动态的环境,具有广阔的应用前景。
📄 摘要(原文)
Language Models (LLMs) have emerged as powerful reasoning engines for embodied control. In particular, In-Context Learning (ICL) enables off-the-shelf, text-only LLMs to predict robot actions without any task-specific training while preserving their generalization capabilities. Applying ICL to bimanual manipulation remains challenging, as the high-dimensional joint action space and tight inter-arm coordination constraints rapidly overwhelm standard context windows. To address this, we introduce BiCICLe (Bimanual Coordinated In-Context Learning), the first framework that enables standard LLMs to perform few-shot bimanual manipulation without fine-tuning. BiCICLe frames bimanual control as a multi-agent leader-follower problem, decoupling the action space into sequential, conditioned single-arm predictions. This naturally extends to Arms' Debate, an iterative refinement process, and to the introduction of a third LLM-as-Judge to evaluate and select the most plausible coordinated trajectories. Evaluated on 13 tasks from the TWIN benchmark, BiCICLe achieves up to 71.1% average success rate, outperforming the best training-free baseline by 6.7 percentage points and surpassing most supervised methods. We further demonstrate strong few-shot generalization on novel tasks.