Learning to Evolve: Multi-modal Interactive Fields for Robust Humanoid Navigation in Dynamic Environments
作者: Peifeng Jiang, Hong Liu, Jin Jin, Wenshuai Wang, Xia Li
分类: cs.RO
发布日期: 2026-05-21
备注: Accepted by Robotics: Science and Systems 2026
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出多模态交互场MIF,用于动态环境中人形机器人稳健导航。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 人形机器人导航 动态环境 多模态融合 3D高斯溅射 场景记忆
📋 核心要点
- 人形机器人在动态环境中导航面临感知失真、环境变化和交互安全约束等挑战,现有语义地图和场景图系统难以直接应用。
- 提出多模态交互场(MIF),通过融合外观、空间和几何信息,实现对动态环境的鲁棒感知和记忆更新。
- 实验表明,MIF在动态环境中显著提高了人形机器人的重定位成功率,并有效降低了语义记忆的占用空间。
📝 摘要(中文)
针对人形机器人安全操作导向的导航需求,提出多模态交互场(MIF)系统。该系统集成了置信度感知的语义3D高斯溅射、差异触发的空间记忆更新以及任务驱动的几何重建,形成闭环感知-适应流程。MIF耦合了三个场:抑制步态模糊的不确定性感知3DGS外观场、维护拓扑记忆的空间场,以及支持交互姿势安全(IPS)的几何场。引入差异检测分数以区分步态引起的假阳性变化和持久性变化,并仅更新局部不一致区域。在真实动态办公室环境中的Unitree-G1人形机器人上,与静态场景图记忆相比,MIF将非静态环境中的重定位成功率从12%提高到94%,同时通过特征蒸馏将语义记忆占用减少91.4%,以实现实际的在线操作。
🔬 方法详解
问题定义:人形机器人在动态环境中进行操作导向的导航时,需要可靠的场景记忆。然而,由于机器人自身的运动(如步态)会导致感知失真,环境也会发生变化,同时还需要考虑交互层面的几何安全约束,使得现有的语义地图和场景图系统难以直接应用。这些系统通常假设相机轨迹稳定、环境静态,或者只使用粗糙的物体几何信息,无法满足人形机器人的需求。
核心思路:论文的核心思路是构建一个多模态的交互场(MIF),将外观、空间和几何信息融合在一起,形成一个闭环的感知-适应系统。通过这种方式,MIF能够更好地应对动态环境中的感知失真和环境变化,并确保机器人在交互过程中的安全性。MIF的设计目标是实现鲁棒的场景记忆和高效的在线操作。
技术框架:MIF系统包含三个主要的场:1) 不确定性感知的3DGS外观场,用于抑制步态引起的图像模糊;2) 空间场,用于维护拓扑记忆;3) 几何场,用于支持交互姿势安全(IPS)。此外,系统还引入了一个差异检测模块,用于区分由机器人运动引起的虚假变化和真实的环境变化,并仅更新局部不一致的区域。整个系统通过闭环的感知-适应流程进行迭代更新。
关键创新:MIF的关键创新在于其多模态的融合方式和差异驱动的记忆更新机制。与传统的静态场景图相比,MIF能够动态地适应环境变化,并保持场景记忆的准确性。此外,MIF还考虑了交互过程中的几何安全约束,从而提高了机器人的操作安全性。差异检测模块能够有效地减少不必要的记忆更新,从而降低了计算成本。
关键设计:在外观场中,使用了3D高斯溅射(3DGS)来表示场景,并通过引入不确定性估计来抑制步态引起的模糊。空间场维护了一个拓扑地图,用于表示场景中的可导航区域。几何场则使用 signed distance function (SDF) 来表示物体的几何形状,并用于评估交互姿势的安全性。差异检测模块通过比较当前帧和历史帧的特征,计算一个差异分数,并根据该分数来决定是否更新记忆。特征蒸馏被用于压缩语义记忆,以实现高效的在线操作。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在真实的动态办公室环境中,MIF将Unitree-G1人形机器人的重定位成功率从12%显著提高到94%,相比于静态场景图记忆。同时,通过特征蒸馏,MIF将语义记忆的占用空间减少了91.4%,从而实现了高效的在线操作。这些结果验证了MIF在动态环境中进行鲁棒导航的有效性。
🎯 应用场景
该研究成果可应用于人形机器人在复杂动态环境中的导航和操作任务,例如家庭服务机器人、工业巡检机器人等。通过提供更鲁棒的场景理解和记忆能力,MIF能够帮助人形机器人更好地适应真实世界的变化,并安全地完成各种任务。未来,该技术有望扩展到其他类型的机器人平台,并应用于更广泛的领域。
📄 摘要(原文)
Safe manipulation-oriented navigation for humanoid robots requires scene memory that remains reliable under locomotion-induced perceptual distortion, environmental changes, and interaction-level geometric safety constraints. Existing semantic mapping and scene-graph systems are difficult to deploy directly in this setting because they often assume stable camera trajectories, static environments, or coarse object geometry. We introduce the Multi-modal Interactive Field (MIF), a humanoid-oriented system that integrates confidence-aware semantic 3D Gaussian Splatting, discrepancy-triggered spatial memory updates, and task-driven geometric reconstruction within a closed-loop perception-adaptation pipeline. MIF couples three fields: an uncertainty-aware 3DGS Appearance Field that suppresses gait-induced blur, a Spatial Field that maintains topological memory, and a Geometry Field that supports Interaction Pose Safety (IPS) before manipulation. A discrepancy detection score is introduced to separate locomotion-induced false-positive changes from persistent changes and updates only locally inconsistent regions. On a Unitree-G1 humanoid in a real dynamic office, MIF improves relocation success in non-static environments from 12% to 94% compared with static scene-graph memory, while reducing semantic memory footprint by 91.4% through feature distillation for practical online operation. Project page and code: https://ziya-jiang.github.io/MIF-homepage/