CUBic: Coordinated Unified Bimanual Perception and Control Framework

📄 arXiv: 2605.13452v1 📥 PDF

作者: Xingyu Wang, Pengxiang Ding, Jingkai Xu, Donglin Wang, Zhaoxin Fan

分类: cs.RO, cs.AI

发布日期: 2026-05-13


💡 一句话要点

CUBic:提出一种统一的双手操作感知与控制框架,提升协调性和任务成功率。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 双手操作 视觉运动策略学习 感知与控制 机器人协调 扩散模型

📋 核心要点

  1. 现有双手操作方法要么解耦双臂以避免干扰,要么强制进行强耦合,缺乏统一处理。
  2. CUBic框架通过学习共享的token化表示,将双手协调视为统一的感知建模问题。
  3. 实验表明,CUBic在RoboTwin基准测试中显著提升了协调精度和任务成功率。

📝 摘要(中文)

本文提出了一种名为CUBic的协调统一双手感知与控制框架,旨在解决视觉运动策略学习中,从单臂操作扩展到双手操作时,独立感知和协调交互的难题。CUBic将双手协调重新定义为一个统一的感知建模问题,学习一个共享的token化表示来连接感知和控制。独立性和协调性自然地从结构中产生,而非手工设计的耦合。该方法集成了单向感知聚合、通过共享映射的双码本进行双向感知协调,以及统一的感知到控制的扩散策略。在RoboTwin基准测试上的大量实验表明,CUBic始终优于标准基线,并在协调精度和任务成功率方面显著优于最先进的视觉运动基线。

🔬 方法详解

问题定义:现有的基于视觉的双手操作控制方法,要么将两个手臂解耦,忽略了它们之间的协调关系,要么强制两个手臂进行强耦合,限制了它们的独立性。这两种方法都无法很好地处理双手操作中独立性和协调性之间的平衡,导致任务成功率不高。

核心思路:CUBic的核心思路是将双手协调问题重新定义为一个统一的感知建模问题。通过学习一个共享的token化表示,将感知和控制连接起来,使得独立性和协调性能够自然地从结构中产生,而不需要手工设计复杂的耦合关系。这样可以更好地处理双手操作中独立性和协调性之间的平衡。

技术框架:CUBic框架包含三个主要组成部分:1) 单向感知聚合:从每个手臂的视觉输入中提取特征。2) 双向感知协调:通过两个具有共享映射的码本,实现两个手臂之间的信息交互和协调。3) 统一的感知到控制的扩散策略:将感知到的信息转化为控制指令,驱动两个手臂完成任务。

关键创新:CUBic的关键创新在于其统一的感知建模方法,它通过共享的token化表示,将独立感知和协调交互融合在一起。与现有方法相比,CUBic不需要手工设计复杂的耦合关系,而是通过学习的方式,让独立性和协调性自然地从结构中产生。

关键设计:CUBic使用了两个码本进行双向感知协调,这两个码本具有共享的映射关系,可以实现两个手臂之间的信息共享和协调。此外,CUBic还使用了扩散策略,将感知到的信息转化为控制指令。具体的参数设置、损失函数和网络结构等技术细节在论文中有详细描述,但未在此处明确给出。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CUBic在RoboTwin基准测试中取得了显著的成果,在协调精度和任务成功率方面均优于现有的视觉运动基线。具体而言,CUBic在多个任务上实现了显著的性能提升,证明了其在双手操作感知和控制方面的有效性。实验结果表明,CUBic能够更好地处理双手操作中独立性和协调性之间的平衡,从而提高任务成功率。

🎯 应用场景

CUBic框架在机器人双手操作领域具有广泛的应用前景,例如装配、抓取、操作工具等任务。该研究可以应用于工业自动化、医疗机器人、家庭服务机器人等领域,提高机器人的操作效率和智能化水平。未来,该框架可以扩展到更多复杂的操作任务和多机器人协作场景。

📄 摘要(原文)

Recent advances in visuomotor policy learning have enabled robots to perform control directly from visual inputs. Yet, extending such end-to-end learning from single-arm to bimanual manipulation remains challenging due to the need for both independent perception and coordinated interaction between arms. Existing methods typically favor one side -- either decoupling the two arms to avoid interference or enforcing strong cross-arm coupling for coordination -- thus lacking a unified treatment. We propose CUBic, a Coordinated and Unified framework for Bimanual perception and control that reformulates bimanual coordination as a unified perceptual modeling problem. CUBic learns a shared tokenized representation bridging perception and control, where independence and coordination emerge intrinsically from structure rather than from hand-crafted coupling. Our approach integrates three components: unidirectional perception aggregation, bidirectional perception coordination through two codebooks with shared mapping, and a unified perception-to-control diffusion policy. Extensive experiments on the RoboTwin benchmark show that CUBic consistently surpasses standard baselines, achieving marked improvements in coordination accuracy and task success rates over state-of-the-art visuomotor baselines.