Bimanual Robot Manipulation via Multi-Agent In-Context Learning

作者: Alessio Palma, Indro Spinelli, Vignesh Prasad, Luca Scofano, Yufeng Jin, Georgia Chalvatzaki, Fabio Galasso

分类: cs.RO, cs.AI, cs.MA

发布日期: 2026-04-22

💡 一句话要点

BiCICLe：基于多智能体上下文学习的双臂机器人操作框架

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: 双臂机器人 上下文学习 多智能体 语言模型 机器人操作

📋 核心要点

双臂机器人操作面临高维动作空间和严格的臂间协调约束，传统上下文学习方法难以有效应用。
BiCICLe将双臂控制分解为多智能体问题，利用LLM进行单臂动作预测，降低了动作空间的复杂性。
实验表明，BiCICLe在多个任务上超越了现有无训练和有监督方法，并展现出良好的泛化能力。

📝 摘要（中文）

本文提出BiCICLe（Bimanual Coordinated In-Context Learning），这是一个无需微调即可实现标准LLM执行少量样本双臂操作的首个框架。BiCICLe将双臂控制建模为多智能体领导者-跟随者问题，将动作空间解耦为顺序的、条件化的单臂预测。该方法自然地扩展到Arms' Debate（一种迭代改进过程），并引入第三个LLM作为裁判来评估和选择最合理的协调轨迹。在TWIN基准测试的13个任务上评估表明，BiCICLe实现了高达71.1%的平均成功率，比最佳的无训练基线高出6.7个百分点，并且超过了大多数监督方法。此外，本文还展示了BiCICLe在新的任务上的强大的少量样本泛化能力。

🔬 方法详解

问题定义：双臂机器人操作需要同时控制两个机械臂，动作空间维度高，臂间需要紧密协调。现有的上下文学习方法难以处理如此高维度的动作空间，并且难以保证臂间的协调性，导致操作成功率低。

核心思路：将双臂控制问题分解为多智能体领导者-跟随者问题。首先由一个LLM（领导者）预测一个机械臂的动作，然后另一个LLM（跟随者）根据领导者的动作预测另一个机械臂的动作。通过这种方式，将高维联合动作空间分解为两个低维的单臂动作空间，简化了学习过程。

技术框架：BiCICLe框架包含以下几个主要模块：1) 领导者LLM：负责预测第一个机械臂的动作。2) 跟随者LLM：负责根据领导者LLM的输出预测第二个机械臂的动作。3) Arms' Debate：一个迭代改进过程，通过多次迭代，不断优化两个机械臂的动作。4) LLM-as-Judge：使用第三个LLM作为裁判，评估和选择最合理的协调轨迹。

关键创新：将双臂控制问题建模为多智能体问题，并利用LLM进行单臂动作预测。这种分解方式有效地降低了动作空间的复杂性，使得上下文学习方法能够应用于双臂机器人操作。此外，引入了Arms' Debate和LLM-as-Judge机制，进一步提高了操作的成功率和鲁棒性。

关键设计：BiCICLe使用标准的LLM作为领导者和跟随者，无需进行额外的微调。Arms' Debate通过多次迭代，不断优化两个机械臂的动作，每次迭代都会根据LLM-as-Judge的评估结果选择最优的动作。LLM-as-Judge使用自然语言描述来评估轨迹的合理性，并选择最符合任务要求的轨迹。

🖼️ 关键图片

📊 实验亮点

BiCICLe在TWIN基准测试的13个任务上取得了显著的成果，平均成功率高达71.1%，比最佳的无训练基线高出6.7个百分点，并且超过了大多数有监督方法。此外，BiCICLe在新的任务上展示了强大的少量样本泛化能力，表明其具有良好的适应性和鲁棒性。

🎯 应用场景

BiCICLe框架可应用于各种需要双臂协调操作的场景，例如：装配线上的零件组装、医疗手术中的辅助操作、家庭服务机器人中的物品整理等。该研究降低了双臂机器人操作的开发难度，使得机器人能够更好地适应复杂和动态的环境，具有广阔的应用前景。

📄 摘要（原文）

Language Models (LLMs) have emerged as powerful reasoning engines for embodied control. In particular, In-Context Learning (ICL) enables off-the-shelf, text-only LLMs to predict robot actions without any task-specific training while preserving their generalization capabilities. Applying ICL to bimanual manipulation remains challenging, as the high-dimensional joint action space and tight inter-arm coordination constraints rapidly overwhelm standard context windows. To address this, we introduce BiCICLe (Bimanual Coordinated In-Context Learning), the first framework that enables standard LLMs to perform few-shot bimanual manipulation without fine-tuning. BiCICLe frames bimanual control as a multi-agent leader-follower problem, decoupling the action space into sequential, conditioned single-arm predictions. This naturally extends to Arms' Debate, an iterative refinement process, and to the introduction of a third LLM-as-Judge to evaluate and select the most plausible coordinated trajectories. Evaluated on 13 tasks from the TWIN benchmark, BiCICLe achieves up to 71.1% average success rate, outperforming the best training-free baseline by 6.7 percentage points and surpassing most supervised methods. We further demonstrate strong few-shot generalization on novel tasks.

Bimanual Robot Manipulation via Multi-Agent In-Context Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理