GIST: Multimodal Knowledge Extraction and Spatial Grounding via Intelligent Semantic Topology

作者: Shivendra Agrawal, Bradley Hayes

分类: cs.AI, cs.CV, cs.HC, cs.RO

发布日期: 2026-04-16

💡 一句话要点

GIST：通过智能语义拓扑实现多模态知识提取与空间定位

🎯 匹配领域: 支柱六：视频提取与匹配 (Video Extraction) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态融合 空间定位 语义拓扑 视觉语言模型 人机交互 机器人导航 知识提取

📋 核心要点

复杂环境中，视觉特征易失效，长尾语义分布对传统计算机视觉构成挑战，因此需要更有效的空间定位方法。
GIST通过提取场景的2D占用地图和拓扑布局，并叠加轻量级语义层，构建语义标注的导航拓扑。
实验表明，GIST在语义搜索、语义定位、区域分类和指令生成等任务中表现出色，并提升了导航成功率。

📝 摘要（中文）

本文提出GIST（Grounded Intelligent Semantic Topology），一种多模态知识提取流程，旨在将消费级移动点云转换为语义标注的导航拓扑。该架构将场景提炼为2D占用地图，提取其拓扑布局，并通过智能关键帧和语义选择叠加轻量级语义层。通过下游人机交互任务验证了该结构的通用性：(1) 意图驱动的语义搜索引擎，在精确匹配失败时主动推断类别替代方案和区域；(2) 单样本语义定位器，实现了1.04米的top-5平均平移误差；(3) 区域分类模块，将可行走的地板平面分割成高级语义区域；(4) 可视化接地的指令生成器，将最佳路径合成为以自我为中心的、富含地标的自然语言路由。在多标准LLM评估中，GIST优于基于序列的指令生成基线。最后，一项现场形成性评估（N=5）仅依靠口头提示产生了80%的导航成功率，验证了该系统在通用设计方面的能力。

🔬 方法详解

问题定义：在零售商店、仓库和医院等复杂环境中，由于物品的准静态特性，密集的视觉特征容易过时，长尾语义分布对传统计算机视觉构成挑战。现有的视觉语言模型（VLM）在语义丰富的空间中导航时，在杂乱环境中的空间定位方面仍然存在困难。

核心思路：GIST的核心思路是将场景信息提炼成一个结构化的、语义丰富的导航拓扑。通过结合几何信息（点云）和语义信息（视觉语言模型），构建一个轻量级的、易于理解和推理的场景表示。这种表示方法能够有效地支持各种下游任务，例如语义搜索、定位和导航。

技术框架：GIST的整体架构包含以下几个主要模块：1) 2D占用地图生成：将3D点云转换为2D占用地图，简化场景的几何表示。2) 拓扑布局提取：从2D占用地图中提取场景的拓扑结构，例如房间、走廊等。3) 语义层叠加：利用视觉语言模型，对关键帧进行语义标注，并将语义信息叠加到拓扑结构上。4) 下游任务模块：包括语义搜索、语义定位、区域分类和指令生成等。

关键创新：GIST的关键创新在于其多模态知识提取流程，能够有效地将几何信息和语义信息融合在一起，构建一个结构化的、语义丰富的场景表示。此外，GIST还采用了智能关键帧和语义选择策略，以减少计算量和提高效率。与现有方法相比，GIST能够更好地处理复杂环境中的空间定位问题。

关键设计：GIST的关键设计包括：1) 采用消费级移动点云作为输入，降低了成本和门槛。2) 使用2D占用地图简化几何表示，提高了处理效率。3) 利用视觉语言模型进行语义标注，提高了语义信息的准确性。4) 设计了意图驱动的语义搜索引擎，能够主动推断类别替代方案和区域。

🖼️ 关键图片

📊 实验亮点

GIST在多个下游任务中表现出色：单样本语义定位实现了1.04米的top-5平均平移误差；意图驱动的语义搜索引擎能够有效推断类别替代方案；区域分类模块能够准确分割语义区域；可视化接地的指令生成器生成了高质量的自然语言导航指令。此外，现场评估显示，仅依靠口头提示，导航成功率达到80%。

🎯 应用场景

GIST可应用于零售、仓储、医疗等复杂环境中的机器人导航、人机协作和智能助手等领域。例如，在零售商店中，GIST可以帮助机器人进行商品定位和路径规划；在仓库中，可以辅助工人进行货物拣选和搬运；在医院中，可以为患者提供导航和信息查询服务。该研究有助于提升机器人在复杂环境中的自主性和智能化水平。

📄 摘要（原文）

Navigating complex, densely packed environments like retail stores, warehouses, and hospitals poses a significant spatial grounding challenge for humans and embodied AI. In these spaces, dense visual features quickly become stale given the quasi-static nature of items, and long-tail semantic distributions challenge traditional computer vision. While Vision-Language Models (VLMs) help assistive systems navigate semantically-rich spaces, they still struggle with spatial grounding in cluttered environments. We present GIST (Grounded Intelligent Semantic Topology), a multimodal knowledge extraction pipeline that transforms a consumer-grade mobile point cloud into a semantically annotated navigation topology. Our architecture distills the scene into a 2D occupancy map, extracts its topological layout, and overlays a lightweight semantic layer via intelligent keyframe and semantic selection. We demonstrate the versatility of this structured spatial knowledge through critical downstream Human-AI interaction tasks: (1) an intent-driven Semantic Search engine that actively infers categorical alternatives and zones when exact matches fail; (2) a one-shot Semantic Localizer achieving a 1.04 m top-5 mean translation error; (3) a Zone Classification module that segments the walkable floor plan into high-level semantic regions; and (4) a Visually-Grounded Instruction Generator that synthesizes optimal paths into egocentric, landmark-rich natural language routing. In multi-criteria LLM evaluations, GIST outperforms sequence-based instruction generation baselines. Finally, an in-situ formative evaluation (N=5) yields an 80% navigation success rate relying solely on verbal cues, validating the system's capacity for universal design.

GIST: Multimodal Knowledge Extraction and Spatial Grounding via Intelligent Semantic Topology

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理