MiniVLN: Efficient Vision-and-Language Navigation by Progressive Knowledge Distillation
作者: Junyou Zhu, Yanyuan Qiao, Siqi Zhang, Xingjian He, Qi Wu, Jing Liu
分类: cs.CV
发布日期: 2024-09-27
💡 一句话要点
MiniVLN:通过渐进式知识蒸馏实现高效的视觉-语言导航
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言导航 知识蒸馏 具身智能 模型压缩 轻量化模型
📋 核心要点
- 具身AI平台算力有限,而现有VLN模型体积庞大,难以部署。
- 提出两阶段知识蒸馏框架,在预训练和微调阶段分别提取细粒度和导航特定知识。
- MiniVLN模型参数量仅为教师模型的12%,在R2R和REVERIE数据集上性能与教师模型相当。
📝 摘要(中文)
近年来,具身人工智能(Embodied AI)发展迅速,但模型尺寸的增加与具身AI平台的有限计算能力相冲突。为了应对这一挑战,本文旨在实现高性能模型和实际可部署性。具体而言,我们关注视觉-语言导航(VLN),这是具身AI中的一项核心任务。本文介绍了一个两阶段知识蒸馏框架,生成一个学生模型MiniVLN,并展示了蒸馏技术在开发轻量级模型方面的巨大潜力。所提出的方法旨在捕获预训练阶段的细粒度知识和微调阶段的导航特定知识。研究结果表明,与单阶段蒸馏相比,两阶段蒸馏方法在缩小教师模型和学生模型之间的性能差距方面更有效。在公开的R2R和REVERIE基准测试中,MiniVLN在参数量仅为教师模型约12%的情况下,实现了与教师模型相当的性能。
🔬 方法详解
问题定义:视觉-语言导航(VLN)任务旨在让智能体根据自然语言指令在真实或模拟环境中导航到目标位置。现有VLN模型通常参数量巨大,计算复杂度高,难以在计算资源受限的具身AI平台上部署。因此,如何在保证性能的前提下,减小模型体积,提高部署效率,是当前VLN研究面临的重要挑战。
核心思路:本文的核心思路是利用知识蒸馏技术,将大型教师模型中的知识迁移到小型学生模型中。通过精心设计的两阶段蒸馏策略,学生模型能够学习到教师模型的关键特征和决策模式,从而在参数量大幅减少的情况下,保持甚至接近教师模型的性能。这种方法旨在平衡模型性能和计算效率,使其更适合在资源受限的环境中部署。
技术框架:MiniVLN的整体框架包含两个主要阶段:预训练阶段的知识蒸馏和微调阶段的知识蒸馏。在预训练阶段,学生模型学习教师模型在通用视觉-语言任务上的知识,例如图像-文本匹配。在微调阶段,学生模型学习教师模型在导航任务上的特定知识,例如路径规划和动作选择。这两个阶段的蒸馏过程共同作用,使得学生模型能够全面地学习教师模型的知识。
关键创新:本文的关键创新在于提出了一个两阶段知识蒸馏框架。与传统的单阶段蒸馏方法相比,该框架能够更有效地提取教师模型中的知识。预训练阶段的蒸馏侧重于学习通用的视觉-语言知识,而微调阶段的蒸馏则侧重于学习导航任务的特定知识。这种分阶段的学习方式使得学生模型能够更好地适应导航任务,从而获得更好的性能。
关键设计:在预训练阶段,使用对比学习损失函数来促使学生模型学习教师模型的视觉-语言表征。在微调阶段,使用行为克隆损失函数来促使学生模型模仿教师模型的导航策略。此外,还采用了数据增强技术来增加训练数据的多样性,从而提高学生模型的泛化能力。具体的网络结构和参数设置细节在论文中有详细描述,包括Transformer encoder的层数、隐藏层维度等。
📊 实验亮点
MiniVLN在R2R和REVERIE两个公开的VLN基准数据集上进行了评估。实验结果表明,MiniVLN在参数量仅为教师模型的12%的情况下,取得了与教师模型相当甚至略优的性能。例如,在R2R数据集上,MiniVLN的SPL指标与教师模型持平,而参数量减少了近90%。这些结果充分证明了所提出的两阶段知识蒸馏框架的有效性,以及MiniVLN在轻量化VLN模型方面的优势。
🎯 应用场景
MiniVLN的研究成果可应用于各种需要低功耗、高效率的具身智能场景,例如家庭服务机器人、仓库巡检机器人、移动医疗助手等。通过减小模型体积,降低计算需求,使得这些应用能够在资源受限的嵌入式设备上运行,从而扩展了具身智能的应用范围和实用性。未来,该技术还可以推广到其他视觉-语言任务,例如视觉问答、图像描述等。
📄 摘要(原文)
In recent years, Embodied Artificial Intelligence (Embodied AI) has advanced rapidly, yet the increasing size of models conflicts with the limited computational capabilities of Embodied AI platforms. To address this challenge, we aim to achieve both high model performance and practical deployability. Specifically, we focus on Vision-and-Language Navigation (VLN), a core task in Embodied AI. This paper introduces a two-stage knowledge distillation framework, producing a student model, MiniVLN, and showcasing the significant potential of distillation techniques in developing lightweight models. The proposed method aims to capture fine-grained knowledge during the pretraining phase and navigation-specific knowledge during the fine-tuning phase. Our findings indicate that the two-stage distillation approach is more effective in narrowing the performance gap between the teacher model and the student model compared to single-stage distillation. On the public R2R and REVERIE benchmarks, MiniVLN achieves performance on par with the teacher model while having only about 12% of the teacher model's parameter count.