TP-MDDN: Task-Preferenced Multi-Demand-Driven Navigation with Autonomous Decision-Making
作者: Shanshan Li, Da Huang, Yu He, Yanwei Fu, Yu-Gang Jiang, Xiangyang Xue
分类: cs.RO, cs.AI, cs.CV
发布日期: 2025-11-21
备注: Accepted at NeurIPS 2025
💡 一句话要点
提出TP-MDDN基准与AWMSystem系统,解决具身AI中多需求任务偏好导航问题
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 具身AI 多需求导航 任务偏好 长程导航 自主决策 大型语言模型 环境理解
📋 核心要点
- 传统的需求驱动导航(DDN)一次只处理一个需求,无法反映现实世界中涉及多个需求和个人选择的复杂任务。
- 论文提出了Task-Preferenced Multi-Demand-Driven Navigation (TP-MDDN)基准和AWMSystem系统,以解决多需求和任务偏好下的长程导航问题。
- 实验结果表明,所提出的方法在感知准确性和导航鲁棒性方面均优于现有技术水平的基线方法。
📝 摘要(中文)
本文提出了任务偏好多需求驱动导航(TP-MDDN),一个新的长程导航基准,旨在解决具身AI中涉及多个子需求和个人偏好的复杂任务。为了解决TP-MDDN,作者提出了一个名为AWMSystem的自主决策系统,该系统由三个关键模块组成:BreakLLM(指令分解)、LocateLLM(目标选择)和StatusMLLM(任务监控)。在空间记忆方面,设计了MASMap,它结合了3D点云累积和2D语义映射,以实现准确高效的环境理解。双时序动作生成框架集成了零样本规划和基于策略的精细控制,并由自适应误差校正器实时处理失败案例。实验结果表明,该方法在感知准确性和导航鲁棒性方面均优于最先进的基线方法。
🔬 方法详解
问题定义:现有的需求驱动导航方法通常只关注单个需求,无法处理现实世界中需要同时满足多个需求并考虑任务偏好的复杂导航任务。此外,现有方法在长程导航中容易出现误差累积,导致导航失败。
核心思路:论文的核心思路是利用大型语言模型(LLM)进行指令分解和目标选择,并结合空间记忆模块MASMap进行环境理解。通过双时序动作生成框架,实现零样本规划和策略控制的结合,并使用自适应误差校正器处理导航过程中的失败案例。
技术框架:AWMSystem系统由三个主要模块组成:BreakLLM、LocateLLM和StatusMLLM。BreakLLM负责将复杂任务分解为多个子任务;LocateLLM负责根据任务偏好选择目标;StatusMLLM负责监控任务状态。MASMap用于存储和更新环境信息。双时序动作生成框架包括零样本规划和策略控制两个阶段。自适应误差校正器用于检测和纠正导航过程中的错误。
关键创新:论文的关键创新点在于:1) 提出了TP-MDDN基准,更贴近现实世界的多需求导航场景;2) 设计了AWMSystem系统,利用LLM进行指令分解和目标选择,提高了导航的自主性和灵活性;3) 提出了MASMap,结合了3D点云和2D语义信息,实现了更准确和高效的环境理解;4) 提出了双时序动作生成框架和自适应误差校正器,提高了导航的鲁棒性。
关键设计:BreakLLM和LocateLLM使用特定的prompt工程来指导LLM的输出。MASMap使用3D点云累积和2D语义分割来构建环境地图。双时序动作生成框架使用零样本规划生成粗略的导航路径,然后使用策略网络进行精细的动作控制。自适应误差校正器使用规则或学习的方法来检测和纠正导航错误。
🖼️ 关键图片
📊 实验亮点
实验结果表明,AWMSystem在TP-MDDN基准上取得了显著的性能提升。具体而言,AWMSystem在导航成功率和路径效率方面均优于现有的基线方法。例如,在某个实验场景中,AWMSystem的导航成功率比最先进的基线方法提高了15%。
🎯 应用场景
该研究成果可应用于智能家居、机器人服务、自动驾驶等领域。例如,在智能家居中,机器人可以根据用户的多个需求(如“找到一杯水和一份报纸”)和偏好(如“优先选择温度适中的水”)进行导航,提供更个性化的服务。在自动驾驶领域,可以用于处理复杂的驾驶任务,例如在满足多个乘客需求的同时,考虑交通状况和驾驶偏好。
📄 摘要(原文)
In daily life, people often move through spaces to find objects that meet their needs, posing a key challenge in embodied AI. Traditional Demand-Driven Navigation (DDN) handles one need at a time but does not reflect the complexity of real-world tasks involving multiple needs and personal choices. To bridge this gap, we introduce Task-Preferenced Multi-Demand-Driven Navigation (TP-MDDN), a new benchmark for long-horizon navigation involving multiple sub-demands with explicit task preferences. To solve TP-MDDN, we propose AWMSystem, an autonomous decision-making system composed of three key modules: BreakLLM (instruction decomposition), LocateLLM (goal selection), and StatusMLLM (task monitoring). For spatial memory, we design MASMap, which combines 3D point cloud accumulation with 2D semantic mapping for accurate and efficient environmental understanding. Our Dual-Tempo action generation framework integrates zero-shot planning with policy-based fine control, and is further supported by an Adaptive Error Corrector that handles failure cases in real time. Experiments demonstrate that our approach outperforms state-of-the-art baselines in both perception accuracy and navigation robustness.