Uni-NaVid: A Video-based Vision-Language-Action Model for Unifying Embodied Navigation Tasks

📄 arXiv: 2412.06224v2 📥 PDF

作者: Jiazhao Zhang, Kunyu Wang, Shaoan Wang, Minghan Li, Haoran Liu, Songlin Wei, Zhongyuan Wang, Zhizheng Zhang, He Wang

分类: cs.RO, cs.CV

发布日期: 2024-12-09 (更新: 2025-02-06)

备注: Project page: https://pku-epic.github.io/Uni-NaVid/


💡 一句话要点

Uni-NaVid:统一具身导航任务的视频视觉-语言-动作模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 具身导航 视觉语言动作模型 统一建模 多任务学习 机器人 视频理解 Transformer 泛化能力

📋 核心要点

  1. 现有具身导航模型通常受限于特定任务配置或离散航点预定义地图,难以作为通用智能体应用于现实世界。
  2. Uni-NaVid通过统一不同导航任务的输入输出数据格式,将多种任务集成到一个模型中,实现跨任务协同学习。
  3. 实验表明,Uni-NaVid在多个导航基准测试中达到SOTA性能,并在真实环境中展现出良好的泛化能力。

📝 摘要(中文)

本文提出了Uni-NaVid,这是首个基于视频的视觉-语言-动作(VLA)模型,旨在统一各种具身导航任务,并为未见过的真实世界环境中的混合长时程任务实现无缝导航。Uni-NaVid通过协调所有常用具身导航任务的输入和输出数据配置,从而在一个模型中集成所有任务来实现这一目标。为了训练Uni-NaVid,我们总共从四个基本的导航子任务中收集了360万个导航数据样本,并促进了它们之间的协同学习。在综合导航基准上的大量实验清楚地证明了Uni-NaVid中统一建模的优势,并表明它实现了最先进的性能。此外,真实世界的实验证实了该模型的有效性和效率,揭示了其强大的泛化能力。

🔬 方法详解

问题定义:现有具身导航模型通常针对特定任务设计,例如指令跟随、物体搜索、问题回答、人员追踪等,缺乏通用性。它们通常依赖于预定义的地图和离散的航点,难以适应真实世界中复杂和未知的环境。因此,如何构建一个能够处理多种导航任务,并在真实环境中具有良好泛化能力的通用导航智能体是一个关键问题。

核心思路:Uni-NaVid的核心思路是将不同的具身导航任务统一到一个视觉-语言-动作(VLA)模型中。通过统一输入和输出的数据格式,使得模型能够同时学习和处理多种导航任务。这种统一建模的方法可以促进跨任务的知识共享和迁移,从而提高模型的泛化能力和鲁棒性。

技术框架:Uni-NaVid的整体架构包含视觉编码器、语言编码器、动作解码器三个主要模块。视觉编码器负责从视频输入中提取视觉特征,语言编码器负责从文本指令中提取语义特征,动作解码器则根据视觉和语言特征生成导航动作。模型采用端到端的方式进行训练,通过最小化预测动作与真实动作之间的差异来优化模型参数。

关键创新:Uni-NaVid最重要的技术创新在于其统一的输入输出数据格式。对于不同的导航任务,例如指令跟随,输入是视频和指令,输出是导航动作序列;对于物体搜索,输入是视频和目标物体描述,输出是导航动作序列。通过将不同任务的输入输出都转换为统一的格式,使得模型能够在一个框架下学习和处理多种任务。

关键设计:Uni-NaVid的关键设计包括:1) 使用Transformer网络作为视觉和语言编码器,以捕捉长距离依赖关系;2) 采用分层动作解码器,先预测高级别的导航目标,再预测低级别的具体动作;3) 使用对比学习损失来增强视觉和语言特征之间的对齐;4) 收集了包含360万个导航数据样本的大规模数据集,用于训练模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Uni-NaVid在多个具身导航基准测试中取得了最先进的性能。例如,在指令跟随任务中,Uni-NaVid的成功率比现有最佳模型提高了10%以上。在真实环境中的实验表明,Uni-NaVid能够有效地完成各种导航任务,并且具有良好的泛化能力。这些结果表明,Uni-NaVid是一种非常有前景的通用导航智能体。

🎯 应用场景

Uni-NaVid具有广泛的应用前景,例如家庭服务机器人、仓储物流机器人、安防巡逻机器人等。它可以帮助机器人在复杂和未知的环境中自主导航,完成各种任务,例如送餐、取物、巡逻等。该研究的未来影响在于推动通用人工智能的发展,使机器人能够更好地理解和适应人类世界。

📄 摘要(原文)

A practical navigation agent must be capable of handling a wide range of interaction demands, such as following instructions, searching objects, answering questions, tracking people, and more. Existing models for embodied navigation fall short of serving as practical generalists in the real world, as they are often constrained by specific task configurations or pre-defined maps with discretized waypoints. In this work, we present Uni-NaVid, the first video-based vision-language-action (VLA) model designed to unify diverse embodied navigation tasks and enable seamless navigation for mixed long-horizon tasks in unseen real-world environments. Uni-NaVid achieves this by harmonizing the input and output data configurations for all commonly used embodied navigation tasks and thereby integrating all tasks in one model. For training Uni-NaVid, we collect 3.6 million navigation data samples in total from four essential navigation sub-tasks and foster synergy in learning across them. Extensive experiments on comprehensive navigation benchmarks clearly demonstrate the advantages of unification modeling in Uni-NaVid and show it achieves state-of-the-art performance. Additionally, real-world experiments confirm the model's effectiveness and efficiency, shedding light on its strong generalizability.