ADM-DP: Adaptive Dynamic Modality Diffusion Policy through Vision-Tactile-Graph Fusion for Multi-Agent Manipulation
作者: Enyi Wang, Wen Fan, Dandan Zhang
分类: cs.RO
发布日期: 2026-02-25
备注: Accepted to IEEE International Conference on Robotics and Automation (ICRA 2026)
💡 一句话要点
提出ADM-DP框架,通过视觉-触觉-图融合实现多智能体协作操作
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 多智能体协作 机器人操作 模态融合 自适应注意力 视觉触觉融合
📋 核心要点
- 多智能体机器人操作面临协作、抓取稳定性和避碰等复杂挑战,现有方法难以兼顾。
- ADM-DP框架融合视觉、触觉和图信息,通过自适应模态注意力机制动态调整各模态权重。
- 实验结果表明,ADM-DP在多智能体任务中性能提升12-25%,验证了自适应融合策略的有效性。
📝 摘要(中文)
多智能体机器人操作面临着协作、抓取稳定性和共享工作空间中的避碰等挑战。为了解决这些问题,我们提出了自适应动态模态扩散策略(ADM-DP)框架,该框架集成了视觉、触觉和基于图(多智能体姿态)的模态,用于协同控制。ADM-DP引入了四个关键创新点。首先,增强的视觉编码器通过特征线性调制(FiLM)融合RGB和点云特征,以丰富感知。其次,触觉引导的抓取策略使用力敏电阻(FSR)反馈来检测接触不足并触发纠正性抓取优化,从而提高抓取稳定性。第三,基于图的碰撞编码器利用多个智能体的共享工具中心点(TCP)位置作为结构化运动学上下文,以保持空间感知并减少智能体间的干扰。第四,自适应模态注意力机制(AMAM)根据任务上下文动态地重新加权模态,从而实现灵活的融合。为了可扩展性和模块化,采用了解耦训练范式,其中智能体学习独立的策略,同时共享空间信息。这保持了智能体之间的低相互依赖性,同时保留了集体意识。在七个多智能体任务中,ADM-DP比最先进的基线提高了12-25%的性能。消融研究表明,在需要多种感觉模态的任务中,改进最为显著,验证了我们的自适应融合策略,并证明了其在各种操作场景中的鲁棒性。
🔬 方法详解
问题定义:多智能体机器人操作任务需要多个机器人协同完成复杂的操作,例如搬运物体、组装零件等。现有的方法在处理此类任务时,往往难以有效地融合来自不同模态(如视觉、触觉)的信息,并且难以保证抓取的稳定性和避免智能体之间的碰撞。这些问题限制了多智能体机器人操作的效率和可靠性。
核心思路:ADM-DP的核心思路是利用自适应模态注意力机制,动态地调整不同模态信息的重要性,从而实现更有效的融合。同时,通过触觉反馈来优化抓取,并利用图结构来编码多智能体之间的空间关系,从而提高抓取稳定性和避免碰撞。这种设计使得系统能够根据任务的需求,灵活地调整各个模态的贡献,从而提高整体性能。
技术框架:ADM-DP框架主要包含以下几个模块:1) 增强的视觉编码器:融合RGB图像和点云数据,提取视觉特征。2) 触觉引导的抓取策略:利用力敏电阻(FSR)反馈,检测抓取状态并进行优化。3) 基于图的碰撞编码器:利用图结构编码多智能体之间的空间关系,减少碰撞。4) 自适应模态注意力机制(AMAM):动态调整不同模态的权重,实现灵活的融合。整个流程是,首先通过视觉编码器和触觉传感器获取环境信息,然后利用图编码器构建多智能体之间的关系图,最后通过AMAM融合不同模态的信息,生成控制指令。
关键创新:ADM-DP的关键创新在于自适应模态注意力机制(AMAM)。与传统的模态融合方法不同,AMAM能够根据任务的上下文,动态地调整不同模态的权重。例如,在抓取物体时,触觉信息可能更加重要;而在避碰时,视觉信息可能更加重要。AMAM通过学习一个注意力权重,来自动地调整不同模态的贡献,从而实现更有效的融合。
关键设计:在视觉编码器中,使用了Feature-wise Linear Modulation (FiLM)来融合RGB和点云特征。在触觉引导的抓取策略中,使用了力敏电阻(FSR)来检测抓取状态,并根据FSR的反馈来调整抓取力度和位置。在图编码器中,使用了共享工具中心点(TCP)位置作为节点,构建多智能体之间的关系图。AMAM的具体实现方式未知,但推测是使用一个神经网络来学习注意力权重,并将其应用于不同模态的特征上。
🖼️ 关键图片
📊 实验亮点
ADM-DP在七个多智能体任务中取得了显著的性能提升,相比于最先进的基线方法,性能提升了12-25%。消融研究表明,在需要多种感觉模态的任务中,改进最为显著,验证了自适应融合策略的有效性。这些实验结果表明,ADM-DP框架具有很强的鲁棒性和泛化能力。
🎯 应用场景
ADM-DP框架具有广泛的应用前景,例如在自动化装配、物流搬运、医疗手术等领域。该框架可以应用于多机器人协同完成复杂的任务,提高生产效率和操作精度。此外,该框架还可以应用于危险环境下的操作,例如核电站维护、灾难救援等,从而减少人员伤亡。
📄 摘要(原文)
Multi-agent robotic manipulation remains challenging due to the combined demands of coordination, grasp stability, and collision avoidance in shared workspaces. To address these challenges, we propose the Adaptive Dynamic Modality Diffusion Policy (ADM-DP), a framework that integrates vision, tactile, and graph-based (multi-agent pose) modalities for coordinated control. ADM-DP introduces four key innovations. First, an enhanced visual encoder merges RGB and point-cloud features via Feature-wise Linear Modulation (FiLM) modulation to enrich perception. Second, a tactile-guided grasping strategy uses Force-Sensitive Resistor (FSR) feedback to detect insufficient contact and trigger corrective grasp refinement, improving grasp stability. Third, a graph-based collision encoder leverages shared tool center point (TCP) positions of multiple agents as structured kinematic context to maintain spatial awareness and reduce inter-agent interference. Fourth, an Adaptive Modality Attention Mechanism (AMAM) dynamically re-weights modalities according to task context, enabling flexible fusion. For scalability and modularity, a decoupled training paradigm is employed in which agents learn independent policies while sharing spatial information. This maintains low interdependence between agents while retaining collective awareness. Across seven multi-agent tasks, ADM-DP achieves 12-25% performance gains over state-of-the-art baselines. Ablation studies show the greatest improvements in tasks requiring multiple sensory modalities, validating our adaptive fusion strategy and demonstrating its robustness for diverse manipulation scenarios.