OLiVia-Nav: An Online Lifelong Vision Language Approach for Mobile Robot Social Navigation

作者: Siddarth Narasimhan, Aaron Hao Tan, Daniel Choi, Goldie Nejat

分类: cs.RO

发布日期: 2024-09-20 (更新: 2025-03-08)

💡 一句话要点

提出OLiVia-Nav，用于移动机器人在社会环境中进行终身视觉语言导航。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 机器人导航 社会导航 视觉语言模型 终身学习 知识蒸馏 对比学习 人机交互

📋 核心要点

现有方法难以使服务机器人在复杂社会环境中进行符合社会规范的导航，且缺乏适应新场景的能力。
OLiVia-Nav通过集成视觉语言模型和在线终身学习框架，使机器人能够理解社会环境并持续学习适应新场景。
实验表明，OLiVia-Nav在多个指标上优于现有DRL和VLM方法，并在真实场景中表现出良好的社会导航能力。

📝 摘要（中文）

本文提出了一种新颖的在线终身视觉语言架构OLiVia-Nav，它将视觉语言模型（VLM）与在线终身学习框架相结合，用于机器人社会导航。我们引入了一种独特的蒸馏方法，即社会情境对比语言图像预训练（SC-CLIP），将大型VLM的社会推理能力迁移到轻量级VLM，使OLiVia-Nav能够直接编码机器人导航过程中的社会和环境情境。这些编码后的嵌入被用于生成和选择符合社会规范的机器人轨迹。SC-CLIP的终身学习能力使OLiVia-Nav能够在遇到新的社会场景时更新机器人轨迹规划。我们在不同的社会导航场景中进行了广泛的真实世界实验。结果表明，OLiVia-Nav在均方误差、Hausdorff损失和个人空间侵犯持续时间方面优于现有的最先进的DRL和VLM方法。消融研究也验证了OLiVia-Nav的设计选择。

🔬 方法详解

问题定义：现有机器人导航方法在人机交互环境中，难以理解和遵守社会规范，例如保持适当的个人空间、避免阻碍行人等。此外，真实世界环境复杂多变，机器人需要具备持续学习和适应新场景的能力，而传统方法往往缺乏这种终身学习的能力。

核心思路：论文的核心思路是将大型视觉语言模型（VLM）的社会推理能力迁移到轻量级VLM，使其能够直接编码社会和环境情境。同时，利用在线终身学习框架，使机器人能够不断学习新的社会场景，并更新其轨迹规划策略。通过这种方式，机器人能够更好地理解和适应社会环境，从而实现更安全、更舒适的导航。

技术框架：OLiVia-Nav的整体架构包含以下几个主要模块：1) 感知模块：利用摄像头等传感器获取环境信息，并使用轻量级VLM（通过SC-CLIP蒸馏得到）编码社会和环境情境。2) 轨迹生成模块：基于编码后的情境信息，生成多个候选轨迹。3) 轨迹选择模块：评估候选轨迹的社会合规性，并选择最优轨迹。4) 终身学习模块：当遇到新的社会场景时，利用SC-CLIP更新VLM，从而提高机器人的社会推理能力。

关键创新：论文最重要的技术创新点是提出了社会情境对比语言图像预训练（SC-CLIP）方法。SC-CLIP通过对比学习的方式，将大型VLM的社会推理能力迁移到轻量级VLM，使其能够在资源受限的机器人平台上运行。此外，OLiVia-Nav集成了在线终身学习框架，使机器人能够不断学习新的社会场景，从而提高其适应能力。

关键设计：SC-CLIP的关键设计在于构建了包含社会情境信息的对比学习数据集。该数据集包含图像、文本描述和社会规范标签。通过对比学习，SC-CLIP使轻量级VLM能够学习到图像、文本和社会规范之间的对应关系。此外，轨迹选择模块使用了一种基于规则的评估函数，该函数考虑了个人空间、行人密度、障碍物等因素，从而选择出符合社会规范的轨迹。

📊 实验亮点

实验结果表明，OLiVia-Nav在真实世界的社会导航场景中表现出色，在均方误差、Hausdorff损失和个人空间侵犯持续时间等指标上均优于现有的DRL和VLM方法。例如，在个人空间侵犯持续时间方面，OLiVia-Nav相比于基线方法降低了约20%。消融研究也验证了SC-CLIP和终身学习模块的有效性。

🎯 应用场景

OLiVia-Nav可应用于医院、办公楼、长期护理院等以人为中心的环境中，提升服务机器人的社会导航能力，保障人员安全与舒适。该研究有助于推动人机协作的智能化发展，并为未来机器人更广泛的应用奠定基础。未来，该技术有望扩展到其他需要社会交互的机器人应用场景，如社交机器人、导览机器人等。

📄 摘要（原文）

Service robots in human-centered environments such as hospitals, office buildings, and long-term care homes need to navigate while adhering to social norms to ensure the safety and comfortability of the people they are sharing the space with. Furthermore, they need to adapt to new social scenarios that can arise during robot navigation. In this paper, we present a novel Online Lifelong Vision Language architecture, OLiVia- Nav, which uniquely integrates vision-language models (VLMs) with an online lifelong learning framework for robot social navigation. We introduce a unique distillation approach, Social Context Contrastive Language Image Pre-training (SC-CLIP), to transfer the social reasoning capabilities of large VLMs to a lightweight VLM, in order for OLiVia-Nav to directly encode social and environment context during robot navigation. These encoded embeddings are used to generate and select robot social compliant trajectories. The lifelong learning capabilities of SC-CLIP enable OLiVia-Nav to update the robot trajectory planning overtime as new social scenarios are encountered. We conducted extensive real-world experiments in diverse social navigation scenarios. The results showed that OLiVia-Nav outperformed existing state-of-the-art DRL and VLM methods in terms of mean squared error, Hausdorff loss, and personal space violation duration. Ablation studies also verified the design choices for OLiVia-Nav.

OLiVia-Nav: An Online Lifelong Vision Language Approach for Mobile Robot Social Navigation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理