From Reactive to Map-Based AI: Tuned Local LLMs for Semantic Zone Inference in Object-Goal Navigation

📄 arXiv: 2603.08086v1 📥 PDF

作者: Yudai Noda, Kanji Tanaka

分类: cs.CV

发布日期: 2026-03-09

备注: 6 pages, 5 figures, technical report


💡 一句话要点

提出基于地图的AI方法,利用微调LLM进行语义区域推理,提升ObjectNav任务性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: ObjectNav 大型语言模型 语义推理 地图构建 机器人导航

📋 核心要点

  1. 现有基于LLM的ObjectNav智能体缺乏空间记忆,导致探索效率低和行为短视。
  2. 提出将微调LLM的语义推理与混合地图系统结合,构建“基于地图的AI”。
  3. 实验表明,该方法在AI2-THOR模拟器中显著提升了成功率和成功加权路径长度。

📝 摘要(中文)

本文提出了一种从反应式AI到“基于地图的AI”的转变方法,旨在解决ObjectNav任务中基于大型语言模型(LLM)的智能体缺乏显式空间记忆,导致冗余探索和短视行为的问题。该方法将基于LLM的语义推理与混合拓扑-栅格地图系统相结合。通过低秩适应(LoRA)微调的Llama-2模型,从口头描述的物体观测中推断语义区域类别和目标存在概率。“区域”被定义为由观测到的物体集合描述的功能区域,为寻找目标提供关键的语义共现线索。这些语义信息被整合到拓扑图中,使智能体能够优先考虑高概率区域,并通过旅行商问题(TSP)优化进行系统探索。在AI2-THOR模拟器中的评估表明,该方法显著优于传统的边界探索和反应式LLM基线,实现了更高的成功率(SR)和成功加权路径长度(SPL)。

🔬 方法详解

问题定义:ObjectNav任务要求智能体在未知环境中找到并导航到目标物体类别。现有基于LLM的智能体通常采用“反应式”范式,缺乏显式的空间记忆,导致探索过程中的冗余和短视行为,难以进行有效的全局规划。

核心思路:本文的核心思路是将LLM的语义推理能力与地图构建相结合,使智能体能够利用语义信息进行更有效的探索和导航。通过构建语义地图,智能体可以更好地理解环境,并根据目标物体的语义信息优先探索更有可能找到目标的区域。

技术框架:该框架包含以下主要模块:1) 基于LoRA微调的Llama-2模型,用于从物体观测中推断语义区域类别和目标存在概率;2) 混合拓扑-栅格地图系统,用于构建环境地图,并整合语义信息;3) 基于旅行商问题(TSP)的路径规划模块,用于优化探索路径,优先访问高概率区域。整体流程是,智能体在探索过程中,利用LLM模型对观测到的物体进行语义推理,并将推理结果整合到地图中。然后,利用TSP算法规划下一步的探索路径,直到找到目标物体。

关键创新:该方法最重要的创新点在于将LLM的语义推理能力与地图构建相结合,从而使智能体能够进行更有效的探索和导航。与传统的反应式方法相比,该方法能够利用语义信息进行全局规划,避免了冗余探索和短视行为。

关键设计:论文使用LoRA对Llama-2模型进行微调,使其能够根据观测到的物体信息推断语义区域类别和目标存在概率。区域被定义为由观测到的物体集合描述的功能区域,例如“厨房”区域可能包含“冰箱”、“炉灶”等物体。地图系统采用混合拓扑-栅格结构,拓扑图用于表示区域之间的连接关系,栅格地图用于表示区域内的详细信息。TSP算法用于优化探索路径,目标是访问所有区域,并使总路径长度最小。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在AI2-THOR模拟器中显著优于传统的边界探索和反应式LLM基线。具体而言,该方法在成功率(SR)和成功加权路径长度(SPL)指标上均取得了显著提升,表明该方法能够更有效地找到目标物体,并减少探索路径的长度。

🎯 应用场景

该研究成果可应用于机器人导航、智能家居、虚拟现实等领域。例如,在智能家居中,机器人可以利用该方法自主探索环境,找到用户指定的物品。在虚拟现实中,该方法可以用于创建更智能的虚拟角色,使其能够更好地理解环境并与用户互动。未来,该技术有望应用于更复杂的场景,如搜索救援、自动驾驶等。

📄 摘要(原文)

Object-Goal Navigation (ObjectNav) requires an agent to find and navigate to a target object category in unknown environments. While recent Large Language Model (LLM)-based agents exhibit zero-shot reasoning, they often rely on a "reactive" paradigm that lacks explicit spatial memory, leading to redundant exploration and myopic behaviors. To address these limitations, we propose a transition from reactive AI to "Map-Based AI" by integrating LLM-based semantic inference with a hybrid topological-grid mapping system. Our framework employs a fine-tuned Llama-2 model via Low-Rank Adaptation (LoRA) to infer semantic zone categories and target existence probabilities from verbalized object observations. In this study, a "zone" is defined as a functional area described by the set of observed objects, providing crucial semantic co-occurrence cues for finding the target. This semantic information is integrated into a topological graph, enabling the agent to prioritize high-probability areas and perform systematic exploration via Traveling Salesman Problem (TSP) optimization. Evaluations in the AI2-THOR simulator demonstrate that our approach significantly outperforms traditional frontier exploration and reactive LLM baselines, achieving a superior Success Rate (SR) and Success weighted by Path Length (SPL).