InCoM: Intent-Driven Perception and Structured Coordination for Whole-Body Mobile Manipulation

📄 arXiv: 2602.23024v1 📥 PDF

作者: Jiahao Liu, Cui Wenbo, Haoran Li, Dongbin Zhao

分类: cs.RO

发布日期: 2026-02-26

备注: 16 pages, 9 figures


💡 一句话要点

InCoM:面向全身移动操作的意图驱动感知与结构化协调框架

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 全身移动操作 意图驱动感知 结构化协调 流匹配 多模态融合

📋 核心要点

  1. 现有全身移动操作方法在基座和机械臂动作的强耦合下,难以优化整体控制策略。
  2. InCoM通过推断运动意图来动态调整感知权重,并利用几何-语义结构对齐增强跨模态感知。
  3. 实验表明,InCoM在ManiSkill-HAB场景中显著优于现有方法,成功率提升高达28.2%。

📝 摘要(中文)

本文提出InCoM,一个用于全身移动操作的意图驱动感知与结构化协调框架。InCoM推断潜在的运动意图,动态地重新加权多尺度感知特征,从而实现阶段自适应的感知注意力分配。为了支持鲁棒的跨模态感知,InCoM进一步结合了几何-语义结构化对齐机制,增强多模态对应关系。在控制方面,我们设计了一个解耦的协调流匹配动作解码器,显式地建模协调的基座-机械臂动作生成,缓解了控制耦合带来的优化困难。在没有访问特权感知信息的情况下,InCoM在三个ManiSkill-HAB场景中的成功率分别超过了最先进的方法28.2%、26.1%和23.6%,证明了其在全身移动操作方面的强大有效性。

🔬 方法详解

问题定义:全身移动操作需要同时控制移动底座和机械臂,现有方法难以处理两者之间的强耦合关系,导致控制优化困难。此外,移动操作过程中视角动态变化,如何有效分配感知注意力也是一个挑战,现有方法通常缺乏有效的感知策略。

核心思路:InCoM的核心在于通过“意图驱动”来解耦感知和控制。首先,通过推断运动意图来指导感知注意力的分配,使得感知系统能够根据当前任务阶段关注更重要的信息。其次,设计解耦的控制策略,显式地建模基座和机械臂的协调动作生成,从而降低控制耦合带来的优化难度。

技术框架:InCoM框架主要包含三个模块:意图驱动的感知模块、几何-语义结构化对齐模块和解耦的协调流匹配动作解码器。感知模块利用运动意图动态调整多尺度感知特征的权重,实现自适应的感知注意力分配。结构化对齐模块增强多模态信息之间的对应关系,提高感知的鲁棒性。动作解码器则负责生成协调的基座和机械臂动作。

关键创新:InCoM的关键创新在于将运动意图融入到感知和控制流程中。通过运动意图,可以动态地调整感知注意力,并解耦基座和机械臂的控制。这种意图驱动的设计使得系统能够更好地适应动态变化的环境,并实现更高效的全身移动操作。

关键设计:在感知模块中,使用了多尺度特征提取网络,并根据推断的运动意图动态调整不同尺度特征的权重。在结构化对齐模块中,使用了几何约束和语义信息来增强多模态对应关系。在动作解码器中,使用了流匹配模型来显式地建模基座和机械臂的协调动作生成,并设计了相应的损失函数来优化控制策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

InCoM在ManiSkill-HAB的三个场景中取得了显著的性能提升,成功率分别超过了现有最先进方法28.2%、26.1%和23.6%。这些结果表明,InCoM在全身移动操作方面具有强大的有效性,并且能够在复杂的环境中实现鲁棒的感知和控制。

🎯 应用场景

InCoM框架具有广泛的应用前景,可用于家庭服务机器人、工业自动化、医疗辅助等领域。例如,在家庭环境中,机器人可以利用InCoM框架实现更灵活的物品抓取和放置;在工业环境中,机器人可以利用InCoM框架完成更复杂的装配任务。该研究的突破将推动机器人技术在实际场景中的应用。

📄 摘要(原文)

Whole-body mobile manipulation is a fundamental capability for general-purpose robotic agents, requiring both coordinated control of the mobile base and manipulator and robust perception under dynamically changing viewpoints. However, existing approaches face two key challenges: strong coupling between base and arm actions complicates whole-body control optimization, and perceptual attention is often poorly allocated as viewpoints shift during mobile manipulation. We propose InCoM, an intent-driven perception and structured coordination framework for whole-body mobile manipulation. InCoM infers latent motion intent to dynamically reweight multi-scale perceptual features, enabling stage-adaptive allocation of perceptual attention. To support robust cross-modal perception, InCoM further incorporates a geometric-semantic structured alignment mechanism that enhances multimodal correspondence. On the control side, we design a decoupled coordinated flow matching action decoder that explicitly models coordinated base-arm action generation, alleviating optimization difficulties caused by control coupling. Without access to privileged perceptual information, InCoM outperforms state-of-the-art methods on three ManiSkill-HAB scenarios by 28.2%, 26.1%, and 23.6% in success rate, demonstrating strong effectiveness for whole-body mobile manipulation.