InCoM: Intent-Driven Perception and Structured Coordination for Whole-Body Mobile Manipulation
作者: Jiahao Liu, Cui Wenbo, Haoran Li, Dongbin Zhao
分类: cs.RO
发布日期: 2026-02-28
💡 一句话要点
提出InCoM框架以解决全身移动操控中的感知与协调问题
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 全身移动操控 感知与控制 多模态融合 运动意图推断 结构对齐机制 协调动作生成 机器人技术 动态环境
📋 核心要点
- 现有方法在全身移动操控中面临底盘与臂部动作强耦合和感知注意力分配不佳的挑战。
- 本文提出InCoM框架,通过推断运动意图动态重加权感知特征,实现自适应的感知注意力分配。
- 在三个ManiSkill-HAB场景中,InCoM的成功率分别提升了28.2%、26.1%和23.6%,显示出显著的效果提升。
📝 摘要(中文)
全身移动操控是通用机器人代理的基本能力,要求在动态变化的视角下对移动底盘和操控器进行协调控制和稳健感知。然而,现有方法面临两个主要挑战:底盘与臂部动作之间的强耦合使得全身控制优化复杂化,且在移动操控过程中,感知注意力的分配往往不理想。为此,本文提出了InCoM框架,通过推断潜在运动意图动态重加权多尺度感知特征,实现阶段自适应的感知注意力分配。此外,InCoM还引入几何-语义结构对齐机制,增强多模态对应关系。在控制方面,设计了一个解耦协调流匹配动作解码器,明确建模协调的底盘-臂部动作生成,缓解了控制耦合带来的优化困难。在没有特权感知信息的情况下,InCoM在三个ManiSkill-HAB场景中成功率分别提升了28.2%、26.1%和23.6%,展现了其在全身移动操控中的强大有效性。
🔬 方法详解
问题定义:本文旨在解决全身移动操控中的感知与控制耦合问题。现有方法在动态环境中难以有效分配感知注意力,且底盘与臂部动作之间的强耦合使得控制优化复杂化。
核心思路:InCoM框架通过推断潜在运动意图,动态重加权多尺度感知特征,从而实现阶段自适应的感知注意力分配,增强了对环境的理解和反应能力。
技术框架:InCoM的整体架构包括两个主要模块:感知模块和控制模块。感知模块负责多模态特征的提取与重加权,控制模块则通过解耦协调流匹配动作解码器生成底盘与臂部的协调动作。
关键创新:最重要的创新在于引入了几何-语义结构对齐机制,增强了多模态之间的对应关系,同时设计了解耦的协调流匹配动作解码器,显著降低了控制耦合带来的优化难度。
关键设计:在参数设置上,采用了多尺度特征提取网络,并设计了特定的损失函数以优化感知与控制的协调性。网络结构上,结合了卷积神经网络与图神经网络,以实现更好的特征表示和关联。
🖼️ 关键图片
📊 实验亮点
在三个ManiSkill-HAB场景中,InCoM框架的成功率分别提升了28.2%、26.1%和23.6%,显著超越了现有最先进的方法,展示了其在全身移动操控任务中的强大有效性和应用潜力。
🎯 应用场景
该研究的潜在应用领域包括服务机器人、工业自动化和智能家居等场景,能够提升机器人在复杂环境中的操作能力和适应性。未来,InCoM框架有望推动全身移动操控技术的进一步发展,促进更智能的机器人系统的实现。
📄 摘要(原文)
Whole-body mobile manipulation is a fundamental capability for general-purpose robotic agents, requiring both coordinated control of the mobile base and manipulator and robust perception under dynamically changing viewpoints. However, existing approaches face two key challenges: strong coupling between base and arm actions complicates whole-body control optimization, and perceptual attention is often poorly allocated as viewpoints shift during mobile manipulation. We propose InCoM, an intent-driven perception and structured coordination framework for whole-body mobile manipulation. InCoM infers latent motion intent to dynamically reweight multi-scale perceptual features, enabling stage-adaptive allocation of perceptual attention. To support robust cross-modal perception, InCoM further incorporates a geometric-semantic structured alignment mechanism that enhances multimodal correspondence. On the control side, we design a decoupled coordinated flow matching action decoder that explicitly models coordinated base-arm action generation, alleviating optimization difficulties caused by control coupling. Without access to privileged perceptual information, InCoM outperforms state-of-the-art methods on three ManiSkill-HAB scenarios by 28.2%, 26.1%, and 23.6% in success rate, demonstrating strong effectiveness for whole-body mobile manipulation.