Vi-LAD: Vision-Language Attention Distillation for Socially-Aware Robot Navigation in Dynamic Environments
作者: Mohamed Elnoor, Kasun Weerakoon, Gershom Seneviratne, Jing Liang, Vignesh Rajagopal, Dinesh Manocha
分类: cs.RO, cs.AI
发布日期: 2025-03-12
💡 一句话要点
提出Vi-LAD,通过视觉-语言注意力蒸馏实现动态环境中具有社会意识的机器人导航。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 机器人导航 社会意识 视觉-语言模型 知识蒸馏 注意力机制
📋 核心要点
- 现有机器人导航方法依赖专家演示或人工标注,成本高昂且泛化性受限,难以适应复杂动态的社会环境。
- Vi-LAD利用预训练的视觉-语言模型进行知识蒸馏,提取注意力图作为社会意识导航的隐式指导,并微调轻量级Transformer模型。
- 真实世界实验表明,Vi-LAD在成功率方面比现有方法提升了14.2%-50%,验证了其在社会合规和高效导航方面的有效性。
📝 摘要(中文)
本文提出了一种名为视觉-语言注意力蒸馏(Vi-LAD)的新方法,旨在将大型视觉-语言模型(VLM)中蕴含的社会合规导航知识提炼到一个轻量级的Transformer模型中,以实现实时的机器人导航。与依赖专家演示或人工标注数据集的传统方法不同,Vi-LAD通过利用预训练的视觉-动作模型的主干网络,在中间层表示级别(即注意力图)执行知识蒸馏和微调。这些注意力图突出显示了给定场景中的关键导航区域,为具有社会意识的运动规划提供了隐式指导。Vi-LAD使用从预训练的视觉-动作模型中提取的中间注意力图,以及从大型VLM构建的类注意力语义图,对基于Transformer的模型进行微调。为此,我们引入了一种新颖的注意力级别蒸馏损失,融合来自两种来源的知识,生成具有增强的社会意识的增强注意力图。然后,这些精细化的注意力图被用作社会感知模型预测控制(MPC)中的可通行性成本图,用于导航。通过在Husky轮式机器人上的真实世界实验验证了该方法的有效性,结果表明,与最先进的(SOTA)导航方法相比,成功率提高了14.2% - 50%,突出了Vi-LAD在实现具有社会合规性和高效机器人导航方面的有效性。
🔬 方法详解
问题定义:论文旨在解决在动态社会环境中,机器人如何进行具有社会意识的导航问题。现有方法通常依赖于人工标注数据或专家演示,这些方法成本高昂,且难以泛化到新的环境和场景中。此外,这些方法通常缺乏对社会规范的理解,导致机器人在导航过程中可能违反社会规则,影响用户体验。
核心思路:论文的核心思路是利用大型视觉-语言模型(VLM)中蕴含的丰富知识,通过知识蒸馏的方式,将这些知识迁移到一个轻量级的Transformer模型中。VLM能够理解场景中的语义信息和社会关系,因此可以为机器人提供社会意识导航的指导。通过提取VLM的注意力图,可以获得场景中关键导航区域的信息,并将其作为隐式指导信号,用于训练机器人导航模型。
技术框架:Vi-LAD的整体框架包括以下几个主要模块:1) 预训练的视觉-动作模型:作为知识蒸馏的教师模型,提供视觉特征和动作预测能力。2) 大型视觉-语言模型(VLM):用于提取场景的语义信息和社会关系,生成类注意力语义图。3) Transformer模型:作为学生模型,接收视觉特征和类注意力语义图,并学习预测导航动作。4) 注意力级别蒸馏损失:用于融合来自视觉-动作模型和VLM的知识,生成增强的注意力图。5) 社会感知模型预测控制(MPC):利用增强的注意力图作为可通行性成本图,进行导航规划。
关键创新:论文的关键创新在于提出了视觉-语言注意力蒸馏(Vi-LAD)方法,将视觉-语言模型的知识迁移到机器人导航任务中。与传统的知识蒸馏方法不同,Vi-LAD在中间层表示级别(即注意力图)进行知识蒸馏,从而能够更有效地利用VLM的知识。此外,论文还提出了一种新颖的注意力级别蒸馏损失,能够融合来自视觉-动作模型和VLM的知识,生成具有增强的社会意识的注意力图。
关键设计:注意力级别蒸馏损失是关键设计之一,它由两部分组成:一部分是视觉-动作模型的注意力图与Transformer模型输出的注意力图之间的KL散度损失,另一部分是类注意力语义图与Transformer模型输出的注意力图之间的KL散度损失。通过最小化这个损失函数,可以使Transformer模型学习到视觉-动作模型和VLM的知识,从而生成具有增强的社会意识的注意力图。此外,论文还使用了Transformer编码器-解码器结构,编码器接收视觉特征和类注意力语义图,解码器输出导航动作。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Vi-LAD在真实世界的机器人导航任务中取得了显著的性能提升。与最先进的导航方法相比,Vi-LAD在成功率方面提高了14.2% - 50%。这些结果表明,Vi-LAD能够有效地利用视觉-语言模型的知识,提高机器人在动态社会环境中的导航能力。
🎯 应用场景
该研究成果可应用于各种需要社会意识导航的机器人场景,例如:服务型机器人、自动驾驶汽车、辅助导航设备等。通过使机器人能够理解和遵守社会规范,可以提高用户体验,增强机器人的实用性和安全性。未来,该技术有望进一步推广到更复杂的社会环境中,例如:拥挤的城市街道、人群密集的公共场所等。
📄 摘要(原文)
We introduce Vision-Language Attention Distillation (Vi-LAD), a novel approach for distilling socially compliant navigation knowledge from a large Vision-Language Model (VLM) into a lightweight transformer model for real-time robotic navigation. Unlike traditional methods that rely on expert demonstrations or human-annotated datasets, Vi-LAD performs knowledge distillation and fine-tuning at the intermediate layer representation level (i.e., attention maps) by leveraging the backbone of a pre-trained vision-action model. These attention maps highlight key navigational regions in a given scene, which serve as implicit guidance for socially aware motion planning. Vi-LAD fine-tunes a transformer-based model using intermediate attention maps extracted from the pre-trained vision-action model, combined with attention-like semantic maps constructed from a large VLM. To achieve this, we introduce a novel attention-level distillation loss that fuses knowledge from both sources, generating augmented attention maps with enhanced social awareness. These refined attention maps are then utilized as a traversability costmap within a socially aware model predictive controller (MPC) for navigation. We validate our approach through real-world experiments on a Husky wheeled robot, demonstrating significant improvements over state-of-the-art (SOTA) navigation methods. Our results show up to 14.2% - 50% improvement in success rate, which highlights the effectiveness of Vi-LAD in enabling socially compliant and efficient robot navigation.