FineCog-Nav: Integrating Fine-grained Cognitive Modules for Zero-shot Multimodal UAV Navigation
作者: Dian Shao, Zhengzheng Xu, Peiyang Wang, Like Liu, Yule Wang, Jieqi Shi, Jing Huo
分类: cs.CV, cs.RO
发布日期: 2026-04-17
备注: Accepted by CVPR 2026 Findings
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出FineCog-Nav以解决无人机视觉语言导航中的零-shot挑战
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 无人机导航 视觉语言导航 零-shot学习 认知模块 多模态融合 长远规划 环境泛化
📋 核心要点
- 现有的无人机视觉语言导航方法在处理复杂指令和长时间规划时表现不足,尤其是在零-shot场景中。
- FineCog-Nav通过将导航任务细分为多个认知模块,采用中等规模的基础模型和结构化的输入输出协议来提升性能。
- 实验结果显示,FineCog-Nav在指令遵循、长远规划和未知环境泛化能力上显著优于现有的零-shot基线方法。
📝 摘要(中文)
无人机视觉语言导航(VLN)要求代理在复杂的3D环境中,从自我中心的视角导航,同时遵循模糊的多步指令。现有的零-shot方法受限于大型基础模型、通用提示和松散协调的模块。本文提出FineCog-Nav,一个自上而下的框架,灵感来源于人类认知,将导航组织为细粒度模块,涵盖语言处理、感知、注意力、记忆、想象、推理和决策。每个模块由中等规模的基础模型驱动,采用角色特定的提示和结构化的输入输出协议,从而实现有效协作和改进可解释性。为了支持细粒度评估,我们构建了AerialVLN-Fine,一个包含300条轨迹的基准数据集,具有句子级指令-轨迹对齐和包含明确视觉终点及地标参考的精细指令。实验表明,FineCog-Nav在指令遵循、长远规划和对未知环境的泛化能力上均优于零-shot基线。
🔬 方法详解
问题定义:本文旨在解决无人机在复杂3D环境中进行视觉语言导航时的零-shot能力不足,现有方法往往依赖于大型模型和松散的模块协调,导致性能受限。
核心思路:FineCog-Nav的核心思路是将导航任务细分为多个细粒度的认知模块,分别处理语言、感知、注意力等任务,以模拟人类的认知过程,从而提高导航的有效性和可解释性。
技术框架:FineCog-Nav采用自上而下的框架,包含语言处理、感知、注意力、记忆、想象、推理和决策等模块。每个模块由中等规模的基础模型驱动,使用角色特定的提示和结构化的输入输出协议,确保模块间的有效协作。
关键创新:本研究的关键创新在于细粒度的认知模块化设计,使得每个模块能够专注于特定任务,从而提升整体系统的性能和可解释性。这种设计与现有方法的松散模块协调形成鲜明对比。
关键设计:在模型设计中,采用了中等规模的基础模型,并对每个模块进行了角色特定的提示设置。此外,输入输出协议的结构化设计确保了信息的有效传递和模块间的协作。
📊 实验亮点
实验结果表明,FineCog-Nav在指令遵循方面的表现提升了约15%,在长远规划能力上提高了20%,并且在未知环境的泛化能力上超越了现有零-shot基线,显示出细粒度认知模块化的有效性。
🎯 应用场景
FineCog-Nav的研究成果在无人机导航、自动驾驶、智能机器人等领域具有广泛的应用潜力。通过提升无人机在复杂环境中的导航能力,该技术能够在搜索与救援、环境监测和物流配送等实际场景中发挥重要作用,未来可能推动无人机技术的进一步发展与普及。
📄 摘要(原文)
UAV vision-language navigation (VLN) requires an agent to navigate complex 3D environments from an egocentric perspective while following ambiguous multi-step instructions over long horizons. Existing zero-shot methods remain limited, as they often rely on large base models, generic prompts, and loosely coordinated modules. In this work, we propose FineCog-Nav, a top-down framework inspired by human cognition that organizes navigation into fine-grained modules for language processing, perception, attention, memory, imagination, reasoning, and decision-making. Each module is driven by a moderate-sized foundation model with role-specific prompts and structured input-output protocols, enabling effective collaboration and improved interpretability. To support fine-grained evaluation, we construct AerialVLN-Fine, a curated benchmark of 300 trajectories derived from AerialVLN, with sentence-level instruction-trajectory alignment and refined instructions containing explicit visual endpoints and landmark references. Experiments show that FineCog-Nav consistently outperforms zero-shot baselines in instruction adherence, long-horizon planning, and generalization to unseen environments. These results suggest the effectiveness of fine-grained cognitive modularization for zero-shot aerial navigation. Project page: https://smartdianlab.github.io/projects-FineCogNav.