From Obstacles to Etiquette: Robot Social Navigation with VLM-Informed Path Selection

作者: Zilin Fang, Anxing Xiao, David Hsu, Gim Hee Lee

分类: cs.RO, cs.AI

发布日期: 2026-02-09

备注: Accepted to IEEE Robotics and Automation Letters (RA-L)

💡 一句话要点

提出基于VLM的路径选择方法，用于机器人社交导航，提升人机交互体验

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器人导航 社交导航 视觉-语言模型 人机交互 社会规范

📋 核心要点

现有机器人导航方法主要关注几何约束，忽略了社会规范和人机交互中的上下文信息。
该论文提出利用微调的视觉-语言模型（VLM）对候选路径进行评估，从而选择符合社会规范的最优路径。
实验表明，该方法在多个社交导航场景中表现出色，有效减少了个人空间侵犯和社交区域入侵。

📝 摘要（中文）

本文提出了一种社交机器人导航框架，该框架将几何规划与上下文社交推理相结合，旨在解决机器人如何在人类环境中进行符合社会规范的导航问题。系统首先提取障碍物和人类动态信息，生成几何上可行的候选路径，然后利用微调的视觉-语言模型（VLM），根据上下文相关的社会期望评估这些路径，并选择一个社会优化路径供控制器使用。这种特定任务的VLM将大型基础模型的社会推理能力提炼成一个更小、更高效的模型，使框架能够在各种人机交互环境中进行实时调整。在四个社交导航环境中的实验表明，该方法实现了最佳的整体性能，具有最短的个人空间侵犯持续时间、最短的面向行人时间，并且没有社交区域入侵。

🔬 方法详解

问题定义：现有的机器人导航方法主要关注几何可行性，即避开障碍物，但忽略了人类社会交互中的复杂规范。即使是无碰撞的路径，也可能干扰到他人的活动或违反社会礼仪，例如阻挡行人、侵犯个人空间等。因此，需要让机器人理解并遵循社会规范，实现更自然的社交导航。

核心思路：论文的核心思路是将几何规划与基于视觉-语言模型的社会推理相结合。首先，利用传统方法生成一系列几何上可行的候选路径。然后，利用微调的VLM对这些路径进行评估，判断其是否符合社会规范，例如是否侵犯了个人空间、是否阻挡了行人等。最终，选择一个在几何上可行且在社会规范上最优的路径。

技术框架：该框架主要包含以下几个模块：1) 环境感知模块：用于感知周围环境，包括障碍物和行人的位置、速度等信息。2) 路径规划模块：基于环境感知信息，生成一系列几何上可行的候选路径。3) VLM评估模块：利用微调的VLM对候选路径进行评估，输出每个路径的社会规范得分。4) 路径选择模块：综合考虑几何可行性和社会规范得分，选择最优路径。5) 运动控制模块：控制机器人沿着选定的路径运动。

关键创新：该论文的关键创新在于将视觉-语言模型（VLM）引入到机器人社交导航中，利用VLM强大的视觉理解和语言推理能力，使机器人能够理解并遵循人类社会规范。通过微调VLM，使其能够专注于特定任务，从而提高了效率和准确性。

关键设计：论文中使用了预训练的视觉-语言模型，并针对社交导航任务进行了微调。微调过程中，使用了包含各种社交场景的图像和文本描述的数据集。损失函数的设计考虑了多个因素，包括个人空间侵犯、行人阻挡、社交区域入侵等。此外，还设计了一种路径评分机制，用于综合考虑几何可行性和社会规范得分。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在四个不同的社交导航场景中均取得了最佳的整体性能。与现有方法相比，该方法显著降低了个人空间侵犯的持续时间，减少了机器人面向行人的时间，并且避免了社交区域的入侵。这些结果表明，该方法能够有效地提高机器人在人类环境中的社交导航能力。

🎯 应用场景

该研究成果可应用于各种需要与人类进行交互的机器人场景，例如服务机器人、导览机器人、医疗机器人等。通过使机器人能够理解并遵循社会规范，可以提高人机交互的自然性和舒适性，从而提升用户体验。未来，该技术还可以扩展到自动驾驶、智能家居等领域，实现更智能、更人性化的服务。

📄 摘要（原文）

Navigating socially in human environments requires more than satisfying geometric constraints, as collision-free paths may still interfere with ongoing activities or conflict with social norms. Addressing this challenge calls for analyzing interactions between agents and incorporating common-sense reasoning into planning. This paper presents a social robot navigation framework that integrates geometric planning with contextual social reasoning. The system first extracts obstacles and human dynamics to generate geometrically feasible candidate paths, then leverages a fine-tuned vision-language model (VLM) to evaluate these paths, informed by contextually grounded social expectations, selecting a socially optimized path for the controller. This task-specific VLM distills social reasoning from large foundation models into a smaller and efficient model, allowing the framework to perform real-time adaptation in diverse human-robot interaction contexts. Experiments in four social navigation contexts demonstrate that our method achieves the best overall performance with the lowest personal space violation duration, the minimal pedestrian-facing time, and no social zone intrusions. Project page: https://path-etiquette.github.io

From Obstacles to Etiquette: Robot Social Navigation with VLM-Informed Path Selection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理