GIST: Multimodal Knowledge Extraction and Spatial Grounding via Intelligent Semantic Topology
作者: Shivendra Agrawal, Bradley Hayes
分类: cs.AI, cs.CV, cs.HC, cs.RO
发布日期: 2026-04-16
💡 一句话要点
GIST:通过智能语义拓扑实现多模态知识提取与空间定位
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态融合 空间定位 语义拓扑 视觉语言模型 人机交互 机器人导航 知识提取
📋 核心要点
- 复杂环境中,视觉特征易失效,长尾语义分布对传统计算机视觉构成挑战,因此需要更有效的空间定位方法。
- GIST通过提取场景的2D占用地图和拓扑布局,并叠加轻量级语义层,构建语义标注的导航拓扑。
- 实验表明,GIST在语义搜索、语义定位、区域分类和指令生成等任务中表现出色,并提升了导航成功率。
📝 摘要(中文)
本文提出GIST(Grounded Intelligent Semantic Topology),一种多模态知识提取流程,旨在将消费级移动点云转换为语义标注的导航拓扑。该架构将场景提炼为2D占用地图,提取其拓扑布局,并通过智能关键帧和语义选择叠加轻量级语义层。通过下游人机交互任务验证了该结构的通用性:(1) 意图驱动的语义搜索引擎,在精确匹配失败时主动推断类别替代方案和区域;(2) 单样本语义定位器,实现了1.04米的top-5平均平移误差;(3) 区域分类模块,将可行走的地板平面分割成高级语义区域;(4) 可视化接地的指令生成器,将最佳路径合成为以自我为中心的、富含地标的自然语言路由。在多标准LLM评估中,GIST优于基于序列的指令生成基线。最后,一项现场形成性评估(N=5)仅依靠口头提示产生了80%的导航成功率,验证了该系统在通用设计方面的能力。
🔬 方法详解
问题定义:在零售商店、仓库和医院等复杂环境中,由于物品的准静态特性,密集的视觉特征容易过时,长尾语义分布对传统计算机视觉构成挑战。现有的视觉语言模型(VLM)在语义丰富的空间中导航时,在杂乱环境中的空间定位方面仍然存在困难。
核心思路:GIST的核心思路是将场景信息提炼成一个结构化的、语义丰富的导航拓扑。通过结合几何信息(点云)和语义信息(视觉语言模型),构建一个轻量级的、易于理解和推理的场景表示。这种表示方法能够有效地支持各种下游任务,例如语义搜索、定位和导航。
技术框架:GIST的整体架构包含以下几个主要模块:1) 2D占用地图生成:将3D点云转换为2D占用地图,简化场景的几何表示。2) 拓扑布局提取:从2D占用地图中提取场景的拓扑结构,例如房间、走廊等。3) 语义层叠加:利用视觉语言模型,对关键帧进行语义标注,并将语义信息叠加到拓扑结构上。4) 下游任务模块:包括语义搜索、语义定位、区域分类和指令生成等。
关键创新:GIST的关键创新在于其多模态知识提取流程,能够有效地将几何信息和语义信息融合在一起,构建一个结构化的、语义丰富的场景表示。此外,GIST还采用了智能关键帧和语义选择策略,以减少计算量和提高效率。与现有方法相比,GIST能够更好地处理复杂环境中的空间定位问题。
关键设计:GIST的关键设计包括:1) 采用消费级移动点云作为输入,降低了成本和门槛。2) 使用2D占用地图简化几何表示,提高了处理效率。3) 利用视觉语言模型进行语义标注,提高了语义信息的准确性。4) 设计了意图驱动的语义搜索引擎,能够主动推断类别替代方案和区域。
🖼️ 关键图片
📊 实验亮点
GIST在多个下游任务中表现出色:单样本语义定位实现了1.04米的top-5平均平移误差;意图驱动的语义搜索引擎能够有效推断类别替代方案;区域分类模块能够准确分割语义区域;可视化接地的指令生成器生成了高质量的自然语言导航指令。此外,现场评估显示,仅依靠口头提示,导航成功率达到80%。
🎯 应用场景
GIST可应用于零售、仓储、医疗等复杂环境中的机器人导航、人机协作和智能助手等领域。例如,在零售商店中,GIST可以帮助机器人进行商品定位和路径规划;在仓库中,可以辅助工人进行货物拣选和搬运;在医院中,可以为患者提供导航和信息查询服务。该研究有助于提升机器人在复杂环境中的自主性和智能化水平。
📄 摘要(原文)
Navigating complex, densely packed environments like retail stores, warehouses, and hospitals poses a significant spatial grounding challenge for humans and embodied AI. In these spaces, dense visual features quickly become stale given the quasi-static nature of items, and long-tail semantic distributions challenge traditional computer vision. While Vision-Language Models (VLMs) help assistive systems navigate semantically-rich spaces, they still struggle with spatial grounding in cluttered environments. We present GIST (Grounded Intelligent Semantic Topology), a multimodal knowledge extraction pipeline that transforms a consumer-grade mobile point cloud into a semantically annotated navigation topology. Our architecture distills the scene into a 2D occupancy map, extracts its topological layout, and overlays a lightweight semantic layer via intelligent keyframe and semantic selection. We demonstrate the versatility of this structured spatial knowledge through critical downstream Human-AI interaction tasks: (1) an intent-driven Semantic Search engine that actively infers categorical alternatives and zones when exact matches fail; (2) a one-shot Semantic Localizer achieving a 1.04 m top-5 mean translation error; (3) a Zone Classification module that segments the walkable floor plan into high-level semantic regions; and (4) a Visually-Grounded Instruction Generator that synthesizes optimal paths into egocentric, landmark-rich natural language routing. In multi-criteria LLM evaluations, GIST outperforms sequence-based instruction generation baselines. Finally, an in-situ formative evaluation (N=5) yields an 80% navigation success rate relying solely on verbal cues, validating the system's capacity for universal design.