InCoM: Intent-Driven Perception and Structured Coordination for Whole-Body Mobile Manipulation

作者: Jiahao Liu, Cui Wenbo, Haoran Li, Dongbin Zhao

分类: cs.RO

发布日期: 2026-02-26

备注: 16 pages, 9 figures

💡 一句话要点

InCoM：面向全身移动操作的意图驱动感知与结构化协调框架

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 全身移动操作 意图驱动感知 结构化协调 流匹配 多模态融合

📋 核心要点

现有全身移动操作方法在基座和机械臂动作的强耦合下，难以优化整体控制策略。
InCoM通过推断运动意图来动态调整感知权重，并利用几何-语义结构对齐增强跨模态感知。
实验表明，InCoM在ManiSkill-HAB场景中显著优于现有方法，成功率提升高达28.2%。

📝 摘要（中文）

本文提出InCoM，一个用于全身移动操作的意图驱动感知与结构化协调框架。InCoM推断潜在的运动意图，动态地重新加权多尺度感知特征，从而实现阶段自适应的感知注意力分配。为了支持鲁棒的跨模态感知，InCoM进一步结合了几何-语义结构化对齐机制，增强多模态对应关系。在控制方面，我们设计了一个解耦的协调流匹配动作解码器，显式地建模协调的基座-机械臂动作生成，缓解了控制耦合带来的优化困难。在没有访问特权感知信息的情况下，InCoM在三个ManiSkill-HAB场景中的成功率分别超过了最先进的方法28.2%、26.1%和23.6%，证明了其在全身移动操作方面的强大有效性。

🔬 方法详解

问题定义：全身移动操作需要同时控制移动底座和机械臂，现有方法难以处理两者之间的强耦合关系，导致控制优化困难。此外，移动操作过程中视角动态变化，如何有效分配感知注意力也是一个挑战，现有方法通常缺乏有效的感知策略。

核心思路：InCoM的核心在于通过“意图驱动”来解耦感知和控制。首先，通过推断运动意图来指导感知注意力的分配，使得感知系统能够根据当前任务阶段关注更重要的信息。其次，设计解耦的控制策略，显式地建模基座和机械臂的协调动作生成，从而降低控制耦合带来的优化难度。

技术框架：InCoM框架主要包含三个模块：意图驱动的感知模块、几何-语义结构化对齐模块和解耦的协调流匹配动作解码器。感知模块利用运动意图动态调整多尺度感知特征的权重，实现自适应的感知注意力分配。结构化对齐模块增强多模态信息之间的对应关系，提高感知的鲁棒性。动作解码器则负责生成协调的基座和机械臂动作。

关键创新：InCoM的关键创新在于将运动意图融入到感知和控制流程中。通过运动意图，可以动态地调整感知注意力，并解耦基座和机械臂的控制。这种意图驱动的设计使得系统能够更好地适应动态变化的环境，并实现更高效的全身移动操作。

关键设计：在感知模块中，使用了多尺度特征提取网络，并根据推断的运动意图动态调整不同尺度特征的权重。在结构化对齐模块中，使用了几何约束和语义信息来增强多模态对应关系。在动作解码器中，使用了流匹配模型来显式地建模基座和机械臂的协调动作生成，并设计了相应的损失函数来优化控制策略。

🖼️ 关键图片

📊 实验亮点

InCoM在ManiSkill-HAB的三个场景中取得了显著的性能提升，成功率分别超过了现有最先进方法28.2%、26.1%和23.6%。这些结果表明，InCoM在全身移动操作方面具有强大的有效性，并且能够在复杂的环境中实现鲁棒的感知和控制。

🎯 应用场景

InCoM框架具有广泛的应用前景，可用于家庭服务机器人、工业自动化、医疗辅助等领域。例如，在家庭环境中，机器人可以利用InCoM框架实现更灵活的物品抓取和放置；在工业环境中，机器人可以利用InCoM框架完成更复杂的装配任务。该研究的突破将推动机器人技术在实际场景中的应用。

📄 摘要（原文）

Whole-body mobile manipulation is a fundamental capability for general-purpose robotic agents, requiring both coordinated control of the mobile base and manipulator and robust perception under dynamically changing viewpoints. However, existing approaches face two key challenges: strong coupling between base and arm actions complicates whole-body control optimization, and perceptual attention is often poorly allocated as viewpoints shift during mobile manipulation. We propose InCoM, an intent-driven perception and structured coordination framework for whole-body mobile manipulation. InCoM infers latent motion intent to dynamically reweight multi-scale perceptual features, enabling stage-adaptive allocation of perceptual attention. To support robust cross-modal perception, InCoM further incorporates a geometric-semantic structured alignment mechanism that enhances multimodal correspondence. On the control side, we design a decoupled coordinated flow matching action decoder that explicitly models coordinated base-arm action generation, alleviating optimization difficulties caused by control coupling. Without access to privileged perceptual information, InCoM outperforms state-of-the-art methods on three ManiSkill-HAB scenarios by 28.2%, 26.1%, and 23.6% in success rate, demonstrating strong effectiveness for whole-body mobile manipulation.

InCoM: Intent-Driven Perception and Structured Coordination for Whole-Body Mobile Manipulation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理