Multi-Modal Manipulation via Multi-Modal Policy Consensus

📄 arXiv: 2509.23468v2 📥 PDF

作者: Haonan Chen, Jiaming Xu, Hongyu Chen, Kaiwen Hong, Binghao Huang, Chaoqi Liu, Jiayuan Mao, Yunzhu Li, Yilun Du, Katherine Driggs-Campbell

分类: cs.RO, cs.AI, cs.LG

发布日期: 2025-09-27 (更新: 2025-10-13)

备注: 9 pages, 7 figures. Project website: https://policyconsensus.github.io


💡 一句话要点

提出基于多模态策略共识的多模态操作方法,提升机器人操作的鲁棒性和灵活性。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态融合 机器人操作 扩散模型 策略学习 传感器融合

📋 核心要点

  1. 现有机器人操作方法难以有效融合不同模态信息,主导模态易淹没关键信息,且缺乏灵活性。
  2. 该方法将策略分解为多个模态专属的扩散模型,通过路由网络学习共识权重自适应融合。
  3. 实验表明,该方法在模拟和真实操作任务中均优于特征拼接方法,并对扰动和传感器损坏具有鲁棒性。

📝 摘要(中文)

有效整合多样化的传感器模态对于机器人操作至关重要。然而,传统的特征拼接方法往往并非最优:视觉等主导模态可能会淹没接触类任务中稀疏但关键的触觉信号,并且单体架构无法灵活地整合新的或缺失的模态而无需重新训练。本文提出一种方法,将策略分解为一组扩散模型,每个模型专门针对单个表征(例如,视觉或触觉),并采用一个路由网络,该网络学习共识权重以自适应地组合它们的贡献,从而能够增量地添加新的表征。我们在{RLBench}中的模拟操作任务以及真实世界的任务(如遮挡物体拾取、手中勺子重新定向和拼图插入)中评估了我们的方法,在需要多模态推理的场景中,该方法明显优于特征拼接基线。我们的策略进一步证明了对物理扰动和传感器损坏的鲁棒性。我们进一步进行了基于扰动的重要性分析,揭示了模态之间的自适应转移。

🔬 方法详解

问题定义:现有机器人操作方法在处理多模态信息时,通常采用特征拼接的方式。这种方式的缺点在于,容易受到主导模态(如视觉)的影响,而忽略了其他模态(如触觉)中稀疏但关键的信息。此外,传统的单体架构难以灵活地添加或移除模态,每次更改都需要重新训练整个模型。因此,如何有效地融合多模态信息,并提高模型的灵活性和鲁棒性,是本文要解决的问题。

核心思路:本文的核心思路是将策略分解为多个模态专属的子策略,每个子策略负责处理一种模态的信息。然后,通过一个路由网络学习不同子策略的权重,自适应地融合它们的输出。这种方式可以避免主导模态对其他模态的淹没,并且可以灵活地添加或移除模态,而无需重新训练整个模型。此外,使用扩散模型作为子策略,可以生成更加多样化的动作,提高模型的探索能力。

技术框架:整体框架包含多个模态专属的扩散模型和一个路由网络。每个扩散模型接收一种模态的输入,并生成一个动作分布。路由网络接收所有扩散模型的输出,并学习一个权重向量,用于加权融合这些输出。最终的动作分布是所有扩散模型输出的加权平均。训练过程包括两个阶段:首先,独立训练每个扩散模型;然后,固定扩散模型的参数,训练路由网络。

关键创新:最重要的技术创新点在于将策略分解为多个模态专属的子策略,并通过路由网络自适应地融合它们的输出。这种方式可以有效地融合多模态信息,并提高模型的灵活性和鲁棒性。与传统的特征拼接方法相比,该方法可以避免主导模态对其他模态的淹没,并且可以灵活地添加或移除模态,而无需重新训练整个模型。

关键设计:每个扩散模型采用U-Net结构,输入为当前状态和目标状态,输出为动作分布的均值和方差。路由网络采用多层感知机,输入为所有扩散模型的输出,输出为权重向量。损失函数包括两部分:一部分是扩散模型的重构损失,另一部分是路由网络的策略梯度损失。在训练路由网络时,采用REINFORCE算法进行策略梯度估计。

📊 实验亮点

该方法在RLBench模拟环境和真实世界的操作任务中进行了评估,包括遮挡物体拾取、手中勺子重新定向和拼图插入。实验结果表明,该方法在需要多模态推理的场景中,显著优于特征拼接基线。此外,该方法还表现出对物理扰动和传感器损坏的鲁棒性。扰动分析揭示了模态之间的自适应转移。

🎯 应用场景

该研究成果可应用于各种需要多模态信息融合的机器人操作任务,例如:在遮挡环境下进行物体抓取,需要结合视觉和触觉信息;在复杂环境中进行装配,需要结合视觉、力觉和听觉信息。该方法能够提高机器人在复杂环境下的操作能力,具有广泛的应用前景。

📄 摘要(原文)

Effectively integrating diverse sensory modalities is crucial for robotic manipulation. However, the typical approach of feature concatenation is often suboptimal: dominant modalities such as vision can overwhelm sparse but critical signals like touch in contact-rich tasks, and monolithic architectures cannot flexibly incorporate new or missing modalities without retraining. Our method factorizes the policy into a set of diffusion models, each specialized for a single representation (e.g., vision or touch), and employs a router network that learns consensus weights to adaptively combine their contributions, enabling incremental of new representations. We evaluate our approach on simulated manipulation tasks in {RLBench}, as well as real-world tasks such as occluded object picking, in-hand spoon reorientation, and puzzle insertion, where it significantly outperforms feature-concatenation baselines on scenarios requiring multimodal reasoning. Our policy further demonstrates robustness to physical perturbations and sensor corruption. We further conduct perturbation-based importance analysis, which reveals adaptive shifts between modalities.