From Reactive to Map-Based AI: Tuned Local LLMs for Semantic Zone Inference in Object-Goal Navigation

作者: Yudai Noda, Kanji Tanaka

分类: cs.CV

发布日期: 2026-03-09

备注: 6 pages, 5 figures, technical report

💡 一句话要点

提出基于地图的AI方法，利用微调LLM进行语义区域推理，提升ObjectNav任务性能。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: ObjectNav 大型语言模型 语义推理 地图构建 机器人导航

📋 核心要点

现有基于LLM的ObjectNav智能体缺乏空间记忆，导致探索效率低和行为短视。
提出将微调LLM的语义推理与混合地图系统结合，构建“基于地图的AI”。
实验表明，该方法在AI2-THOR模拟器中显著提升了成功率和成功加权路径长度。

📝 摘要（中文）

本文提出了一种从反应式AI到“基于地图的AI”的转变方法，旨在解决ObjectNav任务中基于大型语言模型（LLM）的智能体缺乏显式空间记忆，导致冗余探索和短视行为的问题。该方法将基于LLM的语义推理与混合拓扑-栅格地图系统相结合。通过低秩适应（LoRA）微调的Llama-2模型，从口头描述的物体观测中推断语义区域类别和目标存在概率。“区域”被定义为由观测到的物体集合描述的功能区域，为寻找目标提供关键的语义共现线索。这些语义信息被整合到拓扑图中，使智能体能够优先考虑高概率区域，并通过旅行商问题（TSP）优化进行系统探索。在AI2-THOR模拟器中的评估表明，该方法显著优于传统的边界探索和反应式LLM基线，实现了更高的成功率（SR）和成功加权路径长度（SPL）。

🔬 方法详解

问题定义：ObjectNav任务要求智能体在未知环境中找到并导航到目标物体类别。现有基于LLM的智能体通常采用“反应式”范式，缺乏显式的空间记忆，导致探索过程中的冗余和短视行为，难以进行有效的全局规划。

核心思路：本文的核心思路是将LLM的语义推理能力与地图构建相结合，使智能体能够利用语义信息进行更有效的探索和导航。通过构建语义地图，智能体可以更好地理解环境，并根据目标物体的语义信息优先探索更有可能找到目标的区域。

技术框架：该框架包含以下主要模块：1) 基于LoRA微调的Llama-2模型，用于从物体观测中推断语义区域类别和目标存在概率；2) 混合拓扑-栅格地图系统，用于构建环境地图，并整合语义信息；3) 基于旅行商问题（TSP）的路径规划模块，用于优化探索路径，优先访问高概率区域。整体流程是，智能体在探索过程中，利用LLM模型对观测到的物体进行语义推理，并将推理结果整合到地图中。然后，利用TSP算法规划下一步的探索路径，直到找到目标物体。

关键创新：该方法最重要的创新点在于将LLM的语义推理能力与地图构建相结合，从而使智能体能够进行更有效的探索和导航。与传统的反应式方法相比，该方法能够利用语义信息进行全局规划，避免了冗余探索和短视行为。

关键设计：论文使用LoRA对Llama-2模型进行微调，使其能够根据观测到的物体信息推断语义区域类别和目标存在概率。区域被定义为由观测到的物体集合描述的功能区域，例如“厨房”区域可能包含“冰箱”、“炉灶”等物体。地图系统采用混合拓扑-栅格结构，拓扑图用于表示区域之间的连接关系，栅格地图用于表示区域内的详细信息。TSP算法用于优化探索路径，目标是访问所有区域，并使总路径长度最小。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在AI2-THOR模拟器中显著优于传统的边界探索和反应式LLM基线。具体而言，该方法在成功率（SR）和成功加权路径长度（SPL）指标上均取得了显著提升，表明该方法能够更有效地找到目标物体，并减少探索路径的长度。

🎯 应用场景

该研究成果可应用于机器人导航、智能家居、虚拟现实等领域。例如，在智能家居中，机器人可以利用该方法自主探索环境，找到用户指定的物品。在虚拟现实中，该方法可以用于创建更智能的虚拟角色，使其能够更好地理解环境并与用户互动。未来，该技术有望应用于更复杂的场景，如搜索救援、自动驾驶等。

📄 摘要（原文）

Object-Goal Navigation (ObjectNav) requires an agent to find and navigate to a target object category in unknown environments. While recent Large Language Model (LLM)-based agents exhibit zero-shot reasoning, they often rely on a "reactive" paradigm that lacks explicit spatial memory, leading to redundant exploration and myopic behaviors. To address these limitations, we propose a transition from reactive AI to "Map-Based AI" by integrating LLM-based semantic inference with a hybrid topological-grid mapping system. Our framework employs a fine-tuned Llama-2 model via Low-Rank Adaptation (LoRA) to infer semantic zone categories and target existence probabilities from verbalized object observations. In this study, a "zone" is defined as a functional area described by the set of observed objects, providing crucial semantic co-occurrence cues for finding the target. This semantic information is integrated into a topological graph, enabling the agent to prioritize high-probability areas and perform systematic exploration via Traveling Salesman Problem (TSP) optimization. Evaluations in the AI2-THOR simulator demonstrate that our approach significantly outperforms traditional frontier exploration and reactive LLM baselines, achieving a superior Success Rate (SR) and Success weighted by Path Length (SPL).

From Reactive to Map-Based AI: Tuned Local LLMs for Semantic Zone Inference in Object-Goal Navigation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理