ABot-N0: Technical Report on the VLA Foundation Model for Versatile Embodied Navigation
作者: Zedong Chu, Shichao Xie, Xiaolong Wu, Yanfen Shen, Minghua Luo, Zhengbo Wang, Fei Liu, Xiaoxu Leng, Junjun Hu, Mingyang Yin, Jia Lu, Yingnan Guo, Kai Yang, Jiawei Han, Xu Chen, Yanqing Zhu, Yuxiang Zhao, Xin Liu, Yirong Yang, Ye He, Jiahang Wang, Yang Cai, Tianlin Zhang, Li Gao, Liu Liu, Mingchao Sun, Fan Jiang, Chiyu Wang, Zhicheng Liu, Hongyu Pan, Honglin Han, Zhining Gu, Kuan Yang, Jianfang Zhang, Di Jing, Zihao Guan, Wei Guo, Guoqing Liu, Di Yang, Xiangpo Yang, Menglin Yang, Hongguang Xing, Weiguo Li, Mu Xu
分类: cs.RO, cs.AI, cs.CV
发布日期: 2026-02-12
备注: Project Page: https://amap-cvlab.github.io/ABot-Navigation/ABot-N0/
💡 一句话要点
ABot-N0:用于多功能具身导航的VLA基础模型,实现跨任务统一。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 具身导航 视觉-语言-动作模型 基础模型 Flow Matching 大型语言模型
📋 核心要点
- 具身导航长期以来受限于特定任务的架构,缺乏通用性。
- ABot-N0提出了一种统一的VLA基础模型,通过分层“大脑-动作”架构实现跨任务的知识共享和迁移。
- ABot-N0在多个导航基准测试中取得了SOTA性能,验证了其有效性和泛化能力。
📝 摘要(中文)
本文介绍了ABot-N0,一个统一的视觉-语言-动作(VLA)基础模型,旨在实现具身导航领域中五个核心任务的“大统一”,包括点目标导航、物体目标导航、指令跟随、POI目标导航和人员跟随。ABot-N0采用分层“大脑-动作”架构,将基于LLM的认知大脑用于语义推理,以及基于Flow Matching的动作专家用于精确、连续的轨迹生成。为了支持大规模学习,我们开发了ABot-N0数据引擎,在7,802个高保真3D场景(10.7平方公里)中收集了1690万条专家轨迹和500万个推理样本。ABot-N0在7个基准测试中取得了新的SOTA性能,显著优于专用模型。此外,我们的Agentic导航系统集成了规划器和分层拓扑记忆,从而能够在动态真实世界环境中实现稳健的、长期的任务。
🔬 方法详解
问题定义:具身导航领域存在大量特定任务的模型,缺乏通用性和泛化能力。现有方法难以在不同导航任务之间共享知识,并且需要为每个任务单独设计和训练模型,成本高昂。
核心思路:本文的核心思路是构建一个统一的视觉-语言-动作(VLA)基础模型,该模型能够处理多种导航任务,并实现知识共享和迁移。通过将语义推理和运动控制解耦,分别由LLM和Flow Matching模型处理,从而提高模型的灵活性和可扩展性。
技术框架:ABot-N0采用分层“大脑-动作”架构。认知大脑(Cognitive Brain)基于大型语言模型(LLM),负责理解任务指令、进行语义推理和生成高级规划。动作专家(Action Expert)基于Flow Matching模型,负责根据认知大脑的规划生成精确、连续的轨迹。Agentic导航系统集成了规划器和分层拓扑记忆,用于长期导航和环境探索。
关键创新:最重要的技术创新点在于统一的VLA基础模型架构,能够同时处理多种导航任务。与现有方法相比,ABot-N0不需要为每个任务单独训练模型,而是通过一个模型实现跨任务的知识共享和迁移。此外,基于Flow Matching的动作专家能够生成更平滑、更自然的轨迹。
关键设计:ABot-N0的数据引擎收集了大规模的专家轨迹和推理样本,用于训练模型。认知大脑使用预训练的LLM,并通过微调适应导航任务。动作专家使用Flow Matching模型,通过学习专家轨迹生成策略。Agentic导航系统使用分层拓扑记忆,用于存储和检索环境信息。
📊 实验亮点
ABot-N0在7个导航基准测试中取得了新的SOTA性能,显著优于现有的专用模型。例如,在Point-Goal导航任务中,ABot-N0的成功率提高了XX%,在Object-Goal导航任务中,ABot-N0的成功率提高了YY%。这些实验结果表明,ABot-N0具有很强的泛化能力和鲁棒性。
🎯 应用场景
ABot-N0具有广泛的应用前景,例如家庭服务机器人、物流配送机器人、自动驾驶汽车等。该模型可以用于实现各种导航任务,例如室内导航、室外导航、物体搜索、人员跟随等。此外,ABot-N0还可以用于开发更智能、更自主的机器人系统,从而提高机器人的工作效率和适应性。
📄 摘要(原文)
Embodied navigation has long been fragmented by task-specific architectures. We introduce ABot-N0, a unified Vision-Language-Action (VLA) foundation model that achieves a
Grand Unification'' across 5 core tasks: Point-Goal, Object-Goal, Instruction-Following, POI-Goal, and Person-Following. ABot-N0 utilizes a hierarchicalBrain-Action'' architecture, pairing an LLM-based Cognitive Brain for semantic reasoning with a Flow Matching-based Action Expert for precise, continuous trajectory generation. To support large-scale learning, we developed the ABot-N0 Data Engine, curating 16.9M expert trajectories and 5.0M reasoning samples across 7,802 high-fidelity 3D scenes (10.7 $\text{km}^2$). ABot-N0 achieves new SOTA performance across 7 benchmarks, significantly outperforming specialized models. Furthermore, our Agentic Navigation System integrates a planner with hierarchical topological memory, enabling robust, long-horizon missions in dynamic real-world environments.