Enhancing Vision-Language Navigation with Multimodal Event Knowledge from Real-World Indoor Tour Videos

📄 arXiv: 2602.23937v1 📥 PDF

作者: Haoxuan Xu, Tianfu Li, Wenbo Chen, Yi Liu, Xingxing Zuo, Yaoxian Song, Haoang Li

分类: cs.RO, cs.CV

发布日期: 2026-02-27


💡 一句话要点

提出STE-VLN,利用多模态事件知识增强视觉-语言导航中的长程推理能力。

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言导航 多模态事件知识 知识图谱 长程推理 分层检索 机器人导航 情景记忆

📋 核心要点

  1. 现有VLN方法在处理长程推理和粗粒度指令时表现不佳,缺乏对环境事件的有效利用。
  2. 提出STE-VLN,通过构建多模态事件知识图谱YE-KG,并采用分层检索机制,增强VLN智能体的推理能力。
  3. 实验结果表明,STE-VLN在REVERIE、R2R和R2R-CE等基准测试中,性能超越了现有最先进的方法。

📝 摘要(中文)

视觉-语言导航(VLN)智能体在未见环境中进行长程推理时常常面临挑战,尤其是在面对模糊、粗粒度的指令时。尽管最近的研究利用知识图谱来增强推理能力,但受人类情景记忆启发的、多模态事件知识的潜力仍未被充分探索。本文提出了一种以事件为中心的知识增强策略,用于自动过程知识挖掘和特征融合,以解决VLN任务中粗粒度指令和长程推理的问题。首先,我们构建了YE-KG,这是第一个大规模多模态时空知识图谱,包含超过86k个节点和83k条边,来源于真实室内视频。通过利用多模态大型语言模型(如LLaVa、GPT4),我们将非结构化的视频流提取为结构化的语义-动作-效果事件,作为显式情景记忆。其次,我们引入了STE-VLN,通过粗到精的分层检索机制将上述图谱集成到VLN模型中。这使得智能体能够检索因果事件序列,并将其与自我中心的视觉观察动态融合。在REVERIE、R2R和R2R-CE基准上的实验表明,我们的以事件为中心的策略是有效的,在不同的动作空间中优于最先进的方法。我们的数据和代码可在项目网站https://sites.google.com/view/y-event-kg/上找到。

🔬 方法详解

问题定义:现有的视觉-语言导航(VLN)方法在处理长距离导航任务时,尤其是在面对模糊或粗粒度的指令时,常常表现出不足。这些方法通常难以有效地利用环境中的事件信息,导致在复杂环境中进行长程推理时出现困难。现有的知识图谱方法虽然有所改进,但缺乏对多模态事件知识的充分挖掘和利用。

核心思路:本文的核心思路是利用多模态事件知识来增强VLN智能体的推理能力。通过构建一个大规模的多模态事件知识图谱(YE-KG),并将其集成到VLN模型中,智能体可以更好地理解环境中的事件序列,从而更准确地执行导航任务。这种方法模拟了人类的情景记忆,使智能体能够像人类一样,根据过去的经验来指导未来的行动。

技术框架:STE-VLN的整体框架包括以下几个主要模块:1) YE-KG构建:利用多模态大型语言模型(如LLaVa、GPT4)从真实室内视频中提取语义-动作-效果事件,构建大规模多模态时空知识图谱。2) 粗到精分层检索:设计一种分层检索机制,首先进行粗粒度的事件检索,然后进行细粒度的事件匹配,从而找到与当前导航任务相关的事件序列。3) 动态特征融合:将检索到的事件序列与智能体的自我中心视觉观察进行动态融合,从而增强智能体的感知和推理能力。

关键创新:该论文的关键创新在于:1) YE-KG的构建:首次构建了一个大规模的多模态事件知识图谱,为VLN任务提供了丰富的事件知识。2) 粗到精分层检索机制:提出了一种高效的事件检索方法,能够快速准确地找到与当前任务相关的事件序列。3) 事件知识的动态融合:设计了一种动态融合机制,能够将事件知识与视觉观察有效地结合起来,从而增强智能体的推理能力。

关键设计:在YE-KG的构建中,使用了LLaVa和GPT4等大型语言模型来提取视频中的事件信息。在分层检索机制中,使用了余弦相似度等度量方法来衡量事件之间的相似度。在动态特征融合中,使用了注意力机制来学习不同事件和视觉特征的权重。损失函数方面,可能采用了交叉熵损失或类似的损失函数来优化模型的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

STE-VLN在REVERIE、R2R和R2R-CE等基准测试中取得了显著的性能提升。例如,在R2R-CE基准上,STE-VLN的性能超越了现有最先进的方法,证明了其有效性。实验结果表明,该方法能够有效地利用多模态事件知识来增强VLN智能体的推理能力,尤其是在处理长程推理和粗粒度指令时。

🎯 应用场景

该研究成果可应用于室内服务机器人、智能家居、虚拟现实导航等领域。例如,服务机器人可以利用该技术在复杂的室内环境中执行导航任务,为用户提供更智能、更便捷的服务。在虚拟现实中,该技术可以帮助用户更好地理解虚拟环境,并进行更自然的交互。

📄 摘要(原文)

Vision-Language Navigation (VLN) agents often struggle with long-horizon reasoning in unseen environments, particularly when facing ambiguous, coarse-grained instructions. While recent advances use knowledge graph to enhance reasoning, the potential of multimodal event knowledge inspired by human episodic memory remains underexplored. In this work, we propose an event-centric knowledge enhancement strategy for automated process knowledge mining and feature fusion to solve coarse-grained instruction and long-horizon reasoning in VLN task. First, we construct YE-KG, the first large-scale multimodal spatiotemporal knowledge graph, with over 86k nodes and 83k edges, derived from real-world indoor videos. By leveraging multimodal large language models (i.e., LLaVa, GPT4), we extract unstructured video streams into structured semantic-action-effect events to serve as explicit episodic memory. Second, we introduce STE-VLN, which integrates the above graph into VLN models via a Coarse-to-Fine Hierarchical Retrieval mechanism. This allows agents to retrieve causal event sequences and dynamically fuse them with egocentric visual observations. Experiments on REVERIE, R2R, and R2R-CE benchmarks demonstrate the efficiency of our event-centric strategy, outperforming state-of-the-art approaches across diverse action spaces. Our data and code are available on the project website https://sites.google.com/view/y-event-kg/.