M4Diffuser: Multi-View Diffusion Policy with Manipulability-Aware Control for Robust Mobile Manipulation

📄 arXiv: 2509.14980v1 📥 PDF

作者: Ju Dong, Lei Zhang, Liding Zhang, Yao Ling, Yu Fu, Kaixin Bai, Zoltán-Csaba Márton, Zhenshan Bing, Zhaopeng Chen, Alois Christian Knoll, Jianwei Zhang

分类: cs.RO, cs.AI, cs.CV

发布日期: 2025-09-18

备注: Project page: https://sites.google.com/view/m4diffuser, 10 pages, 9 figures


💡 一句话要点

M4Diffuser:结合多视角扩散策略与可操作性控制,实现鲁棒的移动操作

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 移动操作 多视角学习 扩散模型 机器人控制 可操作性 全身协调 非结构化环境

📋 核心要点

  1. 现有移动操作方法受限于单视角,难以应对非结构化环境,泛化能力不足。
  2. M4Diffuser融合多视角扩散策略与ReM-QP控制器,利用全局场景信息和局部物体细节生成末端执行器目标。
  3. 实验结果表明,M4Diffuser在成功率和碰撞减少方面均优于基线方法,展现了良好的鲁棒性和泛化性。

📝 摘要(中文)

本文提出了一种名为M4Diffuser的混合框架,用于解决移动操作任务中的挑战。该框架集成了多视角扩散策略和一个新颖的Reduced and Manipulability-aware QP (ReM-QP) 控制器。扩散策略利用本体感受状态和互补的相机视角,结合近距离物体细节和全局场景上下文,在世界坐标系中生成与任务相关的末端执行器目标。然后,ReM-QP控制器执行这些高层目标,该控制器消除了松弛变量以提高计算效率,并结合了可操作性感知偏好,以增强在奇异点附近的鲁棒性。在模拟和真实环境中的综合实验表明,M4Diffuser的成功率比基线提高了7%到56%,碰撞减少了3%到31%。该方法展示了平滑全身协调的鲁棒性能,以及对未见任务的强大泛化能力,为非结构化环境中可靠的移动操作铺平了道路。

🔬 方法详解

问题定义:移动操作需要移动底座和机械臂的协调控制,同时感知全局场景上下文和精细的物体细节。现有的单视角方法由于视野有限、探索能力不足和泛化能力差,在非结构化环境中经常失效。此外,传统的控制器虽然稳定,但在奇异点附近效率低下且可操作性差。

核心思路:本文的核心思路是结合多视角信息和扩散模型,生成更鲁棒的末端执行器目标,并使用可操作性感知的控制器执行这些目标。多视角信息可以提供更全面的场景理解,扩散模型可以生成更平滑和自然的运动轨迹,可操作性感知的控制器可以避免奇异点附近的控制问题。

技术框架:M4Diffuser框架包含两个主要模块:多视角扩散策略和Reduced and Manipulability-aware QP (ReM-QP) 控制器。多视角扩散策略接收本体感受状态和来自多个摄像头的图像作为输入,生成末端执行器在世界坐标系下的目标位置。ReM-QP控制器接收这些目标位置,并控制移动底座和机械臂协同运动,最终完成任务。

关键创新:M4Diffuser的关键创新在于:1) 提出了多视角扩散策略,能够有效融合来自多个视角的场景信息,生成更准确和鲁棒的末端执行器目标;2) 设计了ReM-QP控制器,通过消除松弛变量和引入可操作性感知偏好,提高了计算效率和在奇异点附近的鲁棒性。

关键设计:多视角扩散策略使用Transformer架构,将来自不同视角的图像特征和本体感受状态进行融合。ReM-QP控制器通过优化二次规划问题来计算控制指令,其中目标函数包含末端执行器目标位置的跟踪误差和可操作性度量。损失函数的设计旨在鼓励平滑的运动轨迹和避免奇异点。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

M4Diffuser在模拟和真实环境中的实验结果表明,其性能显著优于基线方法。具体而言,M4Diffuser在成功率方面提高了7%到56%,在碰撞减少方面降低了3%到31%。这些结果表明,M4Diffuser具有良好的鲁棒性和泛化能力,能够有效地应对非结构化环境中的挑战。

🎯 应用场景

M4Diffuser具有广泛的应用前景,例如在仓库物流、家庭服务、医疗辅助等领域。它可以应用于复杂的非结构化环境中,完成各种操作任务,例如物体抓取、放置、组装等。该研究为移动操作的智能化和自动化提供了新的思路,有望推动机器人技术的发展。

📄 摘要(原文)

Mobile manipulation requires the coordinated control of a mobile base and a robotic arm while simultaneously perceiving both global scene context and fine-grained object details. Existing single-view approaches often fail in unstructured environments due to limited fields of view, exploration, and generalization abilities. Moreover, classical controllers, although stable, struggle with efficiency and manipulability near singularities. To address these challenges, we propose M4Diffuser, a hybrid framework that integrates a Multi-View Diffusion Policy with a novel Reduced and Manipulability-aware QP (ReM-QP) controller for mobile manipulation. The diffusion policy leverages proprioceptive states and complementary camera perspectives with both close-range object details and global scene context to generate task-relevant end-effector goals in the world frame. These high-level goals are then executed by the ReM-QP controller, which eliminates slack variables for computational efficiency and incorporates manipulability-aware preferences for robustness near singularities. Comprehensive experiments in simulation and real-world environments show that M4Diffuser achieves 7 to 56 percent higher success rates and reduces collisions by 3 to 31 percent over baselines. Our approach demonstrates robust performance for smooth whole-body coordination, and strong generalization to unseen tasks, paving the way for reliable mobile manipulation in unstructured environments. Details of the demo and supplemental material are available on our project website https://sites.google.com/view/m4diffuser.