GSON: A Group-based Social Navigation Framework with Large Multimodal Model

📄 arXiv: 2409.18084v3 📥 PDF

作者: Shangyi Luo, Peng Sun, Ji Zhu, Yuhong Deng, Cunjun Yu, Anxing Xiao, Xueqian Wang

分类: cs.RO, cs.AI

发布日期: 2024-09-26 (更新: 2025-07-29)

备注: Accepted by IEEE Robotics and Automation Letters (RA-L)


💡 一句话要点

GSON:基于大模型群组感知的社交导航框架,提升机器人社会适应性

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 社交导航 多模态模型 机器人 视觉提示 群体感知

📋 核心要点

  1. 现有导航系统缺乏社会感知能力,难以在复杂的人群环境中自然地导航。
  2. GSON框架利用大型多模态模型进行社会关系推理,结合视觉提示和行人跟踪,提升了机器人的社会感知能力。
  3. 实验表明,GSON在真实场景中能有效减少对人群的干扰,同时保持良好的导航性能。

📝 摘要(中文)

本文提出了一种名为GSON的基于群组的社交导航框架,该框架利用大型多模态模型(LMMs)来增强机器人的社会感知能力。该方法采用视觉提示来实现对行人之间社会关系的零样本提取,并将这些结果与鲁棒的行人检测和跟踪流程相结合,从而克服LMMs固有的推理速度限制。规划系统包含一个位于全局路径规划和局部运动规划之间的中间层规划器,有效地保留了全局上下文和反应灵敏度,同时避免扰乱预测的社会群体。通过涉及排队、对话和拍照等复杂社会场景的大量真实移动机器人导航实验验证了GSON。对比结果表明,我们的系统在最小化社会扰动方面显著优于现有的导航方法,同时在传统导航指标上保持了相当的性能。

🔬 方法详解

问题定义:现有机器人导航系统通常只关注到达目的地,忽略了人类社会环境中的复杂互动,例如人群的聚集、对话和排队等。这导致机器人在人群中移动时可能会造成干扰,影响用户体验。现有方法在理解和预测社会群体行为方面存在不足,难以实现流畅自然的社交导航。

核心思路:GSON的核心思路是利用大型多模态模型(LMMs)的强大感知能力,使机器人能够理解行人之间的社会关系,并在此基础上进行导航规划。通过视觉提示,LMMs可以零样本提取行人之间的社会关系,例如谁在交谈、谁在排队等。这种社会关系的理解被整合到导航规划中,从而使机器人能够避免干扰社会群体。

技术框架:GSON框架包含三个主要模块:1) 社会感知模块:利用视觉提示和LMMs提取行人之间的社会关系,并结合行人检测和跟踪结果,构建动态的社会环境模型。2) 中间层规划器:位于全局路径规划和局部运动规划之间,负责在全局路径的约束下,根据社会环境模型调整机器人的运动轨迹,避免干扰社会群体。3) 局部运动规划器:根据中间层规划器的输出,生成具体的机器人运动指令,实现避障和轨迹跟踪。

关键创新:GSON的关键创新在于将大型多模态模型引入到机器人社交导航中,并利用视觉提示实现了对社会关系的零样本提取。这种方法避免了传统方法需要大量标注数据的缺点,并且能够适应各种复杂的社会场景。此外,中间层规划器的设计有效地平衡了全局规划和局部响应,使得机器人能够在保持导航效率的同时,避免干扰社会群体。

关键设计:视觉提示的设计是关键。论文中具体使用的提示方式未知,但其目标是引导LMMs识别行人之间的社会关系。行人检测和跟踪模块需要保证鲁棒性和实时性,以便为社会感知模块提供准确的输入。中间层规划器可能使用了某种代价函数,用于惩罚机器人对社会群体的干扰行为。具体的参数设置和损失函数细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GSON在真实场景中显著减少了机器人对社会群体的干扰,例如排队和交谈的人群。具体量化的指标未知,但论文强调GSON在最小化社会扰动方面优于现有方法,同时保持了与现有方法相当的导航性能。这表明GSON在提升机器人社会适应性方面具有显著优势。

🎯 应用场景

GSON框架可应用于各种服务机器人和自动驾驶车辆,例如商场导览机器人、医院配送机器人、自动驾驶出租车等。通过提升机器人的社会感知能力,GSON可以使这些机器人在人群环境中更加自然地移动,减少对人类的干扰,提高用户体验。未来,GSON还可以扩展到更复杂的社会场景,例如人群疏散、紧急救援等。

📄 摘要(原文)

With the increasing presence of service robots and autonomous vehicles in human environments, navigation systems need to evolve beyond simple destination reach to incorporate social awareness. This paper introduces GSON, a novel group-based social navigation framework that leverages Large Multimodal Models (LMMs) to enhance robots' social perception capabilities. Our approach uses visual prompting to enable zero-shot extraction of social relationships among pedestrians and integrates these results with robust pedestrian detection and tracking pipelines to overcome the inherent inference speed limitations of LMMs. The planning system incorporates a mid-level planner that sits between global path planning and local motion planning, effectively preserving both global context and reactive responsiveness while avoiding disruption of the predicted social group. We validate GSON through extensive real-world mobile robot navigation experiments involving complex social scenarios such as queuing, conversations, and photo sessions. Comparative results show that our system significantly outperforms existing navigation approaches in minimizing social perturbations while maintaining comparable performance on traditional navigation metrics.