CoINS: Counterfactual Interactive Navigation via Skill-Aware VLM
作者: Kangjie Zhou, Zhejia Wen, Zhiyong Zhuo, Zike Yan, Pengying Wu, Ieng Hou U, Shuaiyang Li, Han Gao, Kang Ding, Wenhan Cao, Wei Pan, Chang Liu
分类: cs.RO
发布日期: 2026-01-07
备注: 17 pages, 13 figures
💡 一句话要点
CoINS:通过技能感知VLM实现反事实交互式导航,解决机器人环境交互难题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 交互式导航 视觉语言模型 反事实推理 技能感知 机器人规划
📋 核心要点
- 现有基于VLM的导航器缺乏对机器人物理能力的理解,难以处理需要主动交互才能通过的复杂环境。
- CoINS框架通过技能感知的VLM进行反事实推理,判断交互必要性并选择交互目标,从而实现更智能的导航。
- CoINS在模拟和真实世界实验中均表现出色,尤其在长程复杂场景中,成功率显著高于现有方法。
📝 摘要(中文)
本文提出了一种名为CoINS(Counterfactual Interactive Navigation via Skill-aware VLM)的框架,用于解决机器人交互式导航问题。该框架通过集成技能感知推理和鲁棒的底层执行,弥补了现有基于视觉语言模型(VLM)的导航器在理解机器人物理能力方面的不足。CoINS微调了一个名为InterNav-VLM的VLM,将技能可供性和具体约束参数融入输入上下文,并将其与度量尺度的环境表示对齐。通过在提出的InterNav数据集上进行微调,该模型学习隐式评估物体移除对导航连通性的因果影响,从而确定交互的必要性和目标选择。为了执行生成的高级计划,通过强化学习开发了一个全面的技能库,专门引入了面向可通行性的策略来操作各种物体以清理路径。在Isaac Sim中进行系统评估,结果表明CoINS显著优于现有方法,在复杂长程场景中成功率提升超过80%。
🔬 方法详解
问题定义:现有基于视觉语言模型的机器人导航方法,特别是交互式导航,主要依赖于VLM的语义推理能力,但缺乏对机器人自身物理能力的理解。在需要机器人主动与环境交互(例如,推开障碍物)才能到达目标点的场景中,这些方法往往只能进行被动的避障,无法有效地规划和执行交互行为。因此,如何让机器人理解自身的技能限制,并主动利用这些技能来改变环境,从而实现导航,是本文要解决的核心问题。
核心思路:CoINS的核心思路是利用反事实推理来评估交互行为对导航连通性的影响。具体来说,模型需要判断“如果我移除了这个物体,是否能更容易到达目标点?”。通过在VLM中融入技能感知信息,并利用反事实推理,模型可以学习到哪些物体是阻碍导航的关键障碍,以及机器人应该如何利用自身技能来移除这些障碍。这种方法使得机器人能够主动地规划交互行为,而不仅仅是被动地避障。
技术框架:CoINS是一个分层框架,包含以下主要模块:1) InterNav-VLM:一个经过微调的VLM,用于进行技能感知的反事实推理。该VLM将技能可供性和约束参数融入输入,并与环境的度量尺度表示对齐。2) InterNav数据集:一个用于训练InterNav-VLM的数据集,包含各种交互式导航场景。3) 技能库:一个通过强化学习训练的技能库,包含各种用于操作物体的技能,例如推、拉等。4) 底层执行器:用于执行技能库中的技能,实现与环境的交互。整体流程是:首先,InterNav-VLM根据当前环境和目标点,进行反事实推理,判断是否需要进行交互,以及选择哪个物体进行交互。然后,根据选择的物体和机器人自身的技能,从技能库中选择合适的技能进行执行。最后,底层执行器执行该技能,改变环境,并重复上述过程,直到到达目标点。
关键创新:CoINS的关键创新在于将反事实推理与技能感知VLM相结合,用于解决交互式导航问题。与现有方法相比,CoINS能够更有效地规划和执行交互行为,从而在复杂环境中实现更可靠的导航。此外,CoINS还提出了一个用于训练VLM的InterNav数据集,以及一个通过强化学习训练的技能库,这些都为交互式导航的研究提供了新的资源。
关键设计:InterNav-VLM的关键设计在于如何将技能可供性和约束参数融入输入。具体来说,模型将机器人的技能表示为一组参数,例如最大推力、最大抓取距离等。这些参数与环境的度量尺度表示相结合,使得模型能够更好地理解机器人自身的物理能力。此外,InterNav-VLM还使用了一种特殊的损失函数,用于鼓励模型学习反事实推理。技能库的关键设计在于如何通过强化学习训练出鲁棒的技能。为了实现这一点,研究人员使用了大量的模拟数据,并对技能进行了精细的调整。
📊 实验亮点
CoINS在Isaac Sim仿真环境中进行了系统评估,并在真实世界进行了实验验证。实验结果表明,CoINS在整体成功率上比最佳基线提高了17%,在复杂长程场景中成功率提升超过80%。这些结果表明,CoINS能够有效地解决交互式导航问题,并在复杂环境中实现更可靠的导航。
🎯 应用场景
CoINS在机器人导航领域具有广泛的应用前景,可应用于家庭服务机器人、仓储物流机器人、灾难救援机器人等。通过使机器人具备主动与环境交互的能力,CoINS可以显著提高机器人在复杂环境中的工作效率和适应性。未来,该技术有望进一步发展,应用于更复杂的任务,例如机器人辅助装配、机器人手术等。
📄 摘要(原文)
Recent Vision-Language Models (VLMs) have demonstrated significant potential in robotic planning. However, they typically function as semantic reasoners, lacking an intrinsic understanding of the specific robot's physical capabilities. This limitation is particularly critical in interactive navigation, where robots must actively modify cluttered environments to create traversable paths. Existing VLM-based navigators are predominantly confined to passive obstacle avoidance, failing to reason about when and how to interact with objects to clear blocked paths. To bridge this gap, we propose Counterfactual Interactive Navigation via Skill-aware VLM (CoINS), a hierarchical framework that integrates skill-aware reasoning and robust low-level execution. Specifically, we fine-tune a VLM, named InterNav-VLM, which incorporates skill affordance and concrete constraint parameters into the input context and grounds them into a metric-scale environmental representation. By internalizing the logic of counterfactual reasoning through fine-tuning on the proposed InterNav dataset, the model learns to implicitly evaluate the causal effects of object removal on navigation connectivity, thereby determining interaction necessity and target selection. To execute the generated high-level plans, we develop a comprehensive skill library through reinforcement learning, specifically introducing traversability-oriented strategies to manipulate diverse objects for path clearance. A systematic benchmark in Isaac Sim is proposed to evaluate both the reasoning and execution aspects of interactive navigation. Extensive simulations and real-world experiments demonstrate that CoINS significantly outperforms representative baselines, achieving a 17\% higher overall success rate and over 80\% improvement in complex long-horizon scenarios compared to the best-performing baseline