Diffusion Policy for Coordinated Control of a Nonholonomic Mobile Base and Dual Arms in Door Opening and Passing

📄 arXiv: 2605.15352v1 📥 PDF

作者: Shangqun Yu, Matthew En, Daniel Wu, Sangjun Park, Ziyi Zhou, Seyed Fakoorian, Donghyun Kim

分类: cs.RO

发布日期: 2026-05-14


💡 一句话要点

提出基于扩散策略的视觉运动控制方法,解决移动底座双臂机器人开门通行难题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 扩散模型 视觉运动控制 机器人开门 非完整移动底座 双臂协同 模仿学习 长时程任务

📋 核心要点

  1. 传统机器人开门方法依赖状态机,泛化性差,难以适应真实环境的多样性,需要大量人工调整。
  2. 本文提出基于扩散模型的视觉运动控制策略,实现非完整移动底座和双臂的协同控制,完成开门通行任务。
  3. 实验结果表明,该策略在开门通行任务中具有高成功率和对外部干扰的鲁棒性,优于传统方法。

📝 摘要(中文)

本文针对机器人开门通行这一长期存在的挑战,提出了一种基于扩散的视觉运动控制策略,用于协调非完整移动底座和双臂。该方法旨在模仿人类使用双臂的灵巧操作,包括旋转把手、扩大间隙、扶住门、切换手臂以及在保持间隙的同时通过。与传统方法依赖于手动定义的状态机不同,本文提出的端到端策略能够学习执行需要操纵和移动之间紧密协调的长时程任务。实验结果表明,该策略在打开和通过阻尼拉门方面取得了很高的成功率,并且对外部干扰表现出很强的鲁棒性,这是传统方法难以实现的。

🔬 方法详解

问题定义:论文旨在解决机器人自主开门通行的问题,特别是对于需要拉动的重型自闭门。现有方法主要依赖于手动设计的状态机,这些状态机在不同阶段之间切换,例如旋转旋钮后拉动,间隙足够宽后通过。然而,这些方法缺乏鲁棒性,因为手工设计的轨迹难以推广到真实世界条件的多样性,需要大量的工程努力进行调整。

核心思路:论文的核心思路是利用扩散模型学习一个端到端的视觉运动控制策略,该策略能够直接从视觉输入预测机器人的动作,从而实现非完整移动底座和双臂的协同控制。这种方法避免了手动设计状态机和轨迹的复杂性,并且具有更好的泛化能力和鲁棒性。

技术框架:整体框架是一个端到端的学习系统,输入是机器人的视觉信息,输出是机器人的动作指令,包括移动底座的速度和双臂的关节角度。该系统使用扩散模型作为策略网络,该网络能够学习从视觉输入到动作的映射关系。训练过程使用模仿学习,通过模仿人类的开门行为来训练策略网络。

关键创新:最重要的技术创新点是使用扩散模型作为视觉运动控制策略。与传统的确定性策略相比,扩散模型能够更好地处理动作空间的不确定性,从而提高策略的鲁棒性。此外,该方法能够实现非完整移动底座和双臂的协同控制,这在之前的研究中很少有涉及。

关键设计:论文中没有详细描述关键的参数设置、损失函数、网络结构等技术细节。这些细节可能在补充材料或后续论文中给出。但是,可以推测,损失函数可能包括模仿损失和正则化项,网络结构可能包括卷积神经网络用于提取视觉特征,以及扩散模型用于预测动作。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,本文提出的方法在打开和通过阻尼拉门方面取得了很高的成功率,并且对外部干扰表现出很强的鲁棒性。具体性能数据和对比基线未在摘要中给出,但强调了其优于传统方法的鲁棒性,表明该方法在实际应用中具有显著优势。

🎯 应用场景

该研究成果可应用于服务机器人、家庭机器人、工业机器人等领域,使其能够在各种复杂环境中自主完成开门通行任务。例如,在养老院中,机器人可以帮助老年人打开沉重的门;在仓库中,机器人可以自主进入不同的房间进行货物搬运。该研究具有重要的实际应用价值和广阔的应用前景。

📄 摘要(原文)

Opening heavy, self closing doors, especially those that require pulling remains a long standing challenge in robotics. Humans naturally employ both arms in a dexterous manner, rotating the handle, widening the gap, holding the door, switching arms when needed, and moving through while maintaining clearance. To replicate such behaviors, a robot must perform a long sequence of motions spanning multiple stages and interactions with different parts of the door. Traditional approaches rely on state machines that transition between manually defined stages (e.g., pulling after the knob is rotated, passing after the gap is sufficiently wide). While intuitive, these methods lack robustness, as hand crafted trajectories fail to generalize to the diversity of real world conditions without extensive engineering effort. Recent advances in imitation learning offer a scalable alternative, yet no existing visual action model has demonstrated simultaneous coordination of a nonholonomic base and dual arms for the complete door opening and passing task. In this paper, we tackle this complex, highly constrained problem using a diffusion based visuomotor control policy. Our results demonstrate that a single end to end policy can be learned to execute long horizon tasks requiring tight coordination between manipulation and locomotion. The resulting policy not only achieves a high success rate in opening and traversing damped pull doors but also demonstrates strong robustness to external disturbances capabilities that are difficult to realize with traditional methods.