From Obstacles to Etiquette: Robot Social Navigation with VLM-Informed Path Selection
作者: Zilin Fang, Anxing Xiao, David Hsu, Gim Hee Lee
分类: cs.RO, cs.AI
发布日期: 2026-02-09
备注: Accepted to IEEE Robotics and Automation Letters (RA-L)
💡 一句话要点
提出基于VLM的路径选择方法,用于机器人社交导航,提升人机交互体验
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器人导航 社交导航 视觉-语言模型 人机交互 社会规范
📋 核心要点
- 现有机器人导航方法主要关注几何约束,忽略了社会规范和人机交互中的上下文信息。
- 该论文提出利用微调的视觉-语言模型(VLM)对候选路径进行评估,从而选择符合社会规范的最优路径。
- 实验表明,该方法在多个社交导航场景中表现出色,有效减少了个人空间侵犯和社交区域入侵。
📝 摘要(中文)
本文提出了一种社交机器人导航框架,该框架将几何规划与上下文社交推理相结合,旨在解决机器人如何在人类环境中进行符合社会规范的导航问题。系统首先提取障碍物和人类动态信息,生成几何上可行的候选路径,然后利用微调的视觉-语言模型(VLM),根据上下文相关的社会期望评估这些路径,并选择一个社会优化路径供控制器使用。这种特定任务的VLM将大型基础模型的社会推理能力提炼成一个更小、更高效的模型,使框架能够在各种人机交互环境中进行实时调整。在四个社交导航环境中的实验表明,该方法实现了最佳的整体性能,具有最短的个人空间侵犯持续时间、最短的面向行人时间,并且没有社交区域入侵。
🔬 方法详解
问题定义:现有的机器人导航方法主要关注几何可行性,即避开障碍物,但忽略了人类社会交互中的复杂规范。即使是无碰撞的路径,也可能干扰到他人的活动或违反社会礼仪,例如阻挡行人、侵犯个人空间等。因此,需要让机器人理解并遵循社会规范,实现更自然的社交导航。
核心思路:论文的核心思路是将几何规划与基于视觉-语言模型的社会推理相结合。首先,利用传统方法生成一系列几何上可行的候选路径。然后,利用微调的VLM对这些路径进行评估,判断其是否符合社会规范,例如是否侵犯了个人空间、是否阻挡了行人等。最终,选择一个在几何上可行且在社会规范上最优的路径。
技术框架:该框架主要包含以下几个模块:1) 环境感知模块:用于感知周围环境,包括障碍物和行人的位置、速度等信息。2) 路径规划模块:基于环境感知信息,生成一系列几何上可行的候选路径。3) VLM评估模块:利用微调的VLM对候选路径进行评估,输出每个路径的社会规范得分。4) 路径选择模块:综合考虑几何可行性和社会规范得分,选择最优路径。5) 运动控制模块:控制机器人沿着选定的路径运动。
关键创新:该论文的关键创新在于将视觉-语言模型(VLM)引入到机器人社交导航中,利用VLM强大的视觉理解和语言推理能力,使机器人能够理解并遵循人类社会规范。通过微调VLM,使其能够专注于特定任务,从而提高了效率和准确性。
关键设计:论文中使用了预训练的视觉-语言模型,并针对社交导航任务进行了微调。微调过程中,使用了包含各种社交场景的图像和文本描述的数据集。损失函数的设计考虑了多个因素,包括个人空间侵犯、行人阻挡、社交区域入侵等。此外,还设计了一种路径评分机制,用于综合考虑几何可行性和社会规范得分。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在四个不同的社交导航场景中均取得了最佳的整体性能。与现有方法相比,该方法显著降低了个人空间侵犯的持续时间,减少了机器人面向行人的时间,并且避免了社交区域的入侵。这些结果表明,该方法能够有效地提高机器人在人类环境中的社交导航能力。
🎯 应用场景
该研究成果可应用于各种需要与人类进行交互的机器人场景,例如服务机器人、导览机器人、医疗机器人等。通过使机器人能够理解并遵循社会规范,可以提高人机交互的自然性和舒适性,从而提升用户体验。未来,该技术还可以扩展到自动驾驶、智能家居等领域,实现更智能、更人性化的服务。
📄 摘要(原文)
Navigating socially in human environments requires more than satisfying geometric constraints, as collision-free paths may still interfere with ongoing activities or conflict with social norms. Addressing this challenge calls for analyzing interactions between agents and incorporating common-sense reasoning into planning. This paper presents a social robot navigation framework that integrates geometric planning with contextual social reasoning. The system first extracts obstacles and human dynamics to generate geometrically feasible candidate paths, then leverages a fine-tuned vision-language model (VLM) to evaluate these paths, informed by contextually grounded social expectations, selecting a socially optimized path for the controller. This task-specific VLM distills social reasoning from large foundation models into a smaller and efficient model, allowing the framework to perform real-time adaptation in diverse human-robot interaction contexts. Experiments in four social navigation contexts demonstrate that our method achieves the best overall performance with the lowest personal space violation duration, the minimal pedestrian-facing time, and no social zone intrusions. Project page: https://path-etiquette.github.io