PISHYAR: A Socially Intelligent Smart Cane for Indoor Social Navigation and Multimodal Human-Robot Interaction for Visually Impaired People

📄 arXiv: 2602.12597v1 📥 PDF

作者: Mahdi Haghighat Joo, Maryam Karimi Jafari, Alireza Taheri

分类: cs.RO, cs.HC

发布日期: 2026-02-13


💡 一句话要点

PISHYAR:面向视障人士的社交智能手杖,实现室内社交导航与多模态人机交互

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 智能手杖 社交导航 多模态交互 视障辅助 人机交互

📋 核心要点

  1. 现有智能手杖在社交场景导航方面存在不足,难以理解和适应复杂的人群行为。
  2. PISHYAR通过集成RGB-D感知、目标检测、集体活动识别和动态路径规划,实现社交感知导航。
  3. 实验结果表明,PISHYAR在室内环境实现了可靠的避障和社交规范导航,系统准确率约为80%。

📝 摘要(中文)

本文介绍了一种名为PISHYAR的社交智能手杖,它结合了具有社交意识的导航与多模态人机交互,旨在支持视障人士的物理移动和交互式辅助。该系统包含两个组件:(1)基于Raspberry Pi 5实现的社交导航框架,集成了使用OAK-D Lite相机的实时RGB-D感知、基于YOLOv8的目标检测、基于COMPOSER的集体活动识别、D* Lite动态路径规划以及通过振动马达实现的触觉反馈,用于定位空座位等任务;(2)代理式多模态LLM-VLM交互框架,集成了语音识别、视觉语言模型、大型语言模型和文本到语音转换,并在纯语音和纯视觉模式之间进行动态路由,以实现自然的基于语音的通信、场景描述以及从视觉输入中进行对象定位。通过仿真测试、真实环境实验和以用户为中心的研究对系统进行评估。结果表明,在不同的社交条件下,系统在模拟和真实的室内环境中实现了可靠的避障和符合社交规范的导航,总体系统准确率约为80%。群体活动识别在各种人群场景中也表现出强大的性能。此外,一项针对八名视障和低视力参与者的初步探索性用户研究通过结构化任务和基于UTAUT的问卷调查评估了代理式交互框架,结果显示在我们的实验中,用户对可用性、信任和感知到的社交性具有高度的接受度和积极的看法。结果突出了PISHYAR作为一种多模态辅助移动辅助工具的潜力,它超越了导航,为这些用户提供社交互动支持。

🔬 方法详解

问题定义:现有智能手杖主要关注障碍物规避,缺乏对社交环境的理解,难以在人群中进行有效导航。例如,无法识别空座位、理解人群意图,导致导航效率低下,用户体验不佳。因此,需要一种能够理解社交环境并进行智能交互的辅助设备。

核心思路:PISHYAR的核心思路是将社交感知融入到智能手杖的导航系统中。通过视觉感知模块理解周围环境,包括人群行为、物体状态等,然后利用规划算法生成符合社交规范的导航路径。同时,利用多模态人机交互,使用户可以通过语音与手杖进行自然交互,获取环境信息和导航指导。

技术框架:PISHYAR系统包含两个主要模块:社交导航框架和代理式多模态交互框架。社交导航框架使用OAK-D Lite相机进行RGB-D感知,YOLOv8进行目标检测,COMPOSER进行集体活动识别,D* Lite算法进行动态路径规划,并通过振动马达提供触觉反馈。代理式多模态交互框架集成了语音识别、视觉语言模型(VLM)、大型语言模型(LLM)和文本到语音转换(TTS),实现语音和视觉信息的融合与处理。系统可以根据用户需求和环境信息,动态切换语音和视觉模式,提供个性化的交互体验。

关键创新:PISHYAR的关键创新在于将社交智能融入到智能手杖的设计中。传统的智能手杖主要关注物理障碍物的规避,而PISHYAR能够理解人群行为、识别空座位等社交信息,并生成符合社交规范的导航路径。此外,PISHYAR还采用了多模态人机交互,使用户可以通过语音与手杖进行自然交互,获取环境信息和导航指导。这种社交智能和多模态交互的结合,使得PISHYAR能够更好地满足视障人士在复杂社交环境中的导航需求。

关键设计:在社交导航框架中,COMPOSER用于集体活动识别,其具体实现细节(如使用的特征、模型结构等)未详细说明。在多模态交互框架中,LLM和VLM的具体选择和配置(例如,使用的预训练模型、微调策略等)也未详细说明。动态路由策略的具体实现细节(例如,如何判断何时切换语音或视觉模式)也需要进一步了解。

📊 实验亮点

在模拟和真实室内环境中,PISHYAR实现了可靠的避障和社交规范导航,总体系统准确率约为80%。用户研究表明,视障人士对PISHYAR的可用性、信任度和感知到的社交性具有高度的接受度和积极的看法。这些结果表明PISHYAR在辅助视障人士进行社交导航方面具有显著的潜力。

🎯 应用场景

PISHYAR可应用于室内公共场所,如商场、图书馆、博物馆等,帮助视障人士更安全、更便捷地进行导航和社交活动。该研究的成果可推广到其他辅助设备,如智能眼镜、智能轮椅等,提升残疾人的生活质量,促进社会融合。未来,PISHYAR有望集成更多传感器和算法,实现更精准的感知和更智能的交互。

📄 摘要(原文)

This paper presents PISHYAR, a socially intelligent smart cane designed by our group to combine socially aware navigation with multimodal human-AI interaction to support both physical mobility and interactive assistance. The system consists of two components: (1) a social navigation framework implemented on a Raspberry Pi 5 that integrates real-time RGB-D perception using an OAK-D Lite camera, YOLOv8-based object detection, COMPOSER-based collective activity recognition, D* Lite dynamic path planning, and haptic feedback via vibration motors for tasks such as locating a vacant seat; and (2) an agentic multimodal LLM-VLM interaction framework that integrates speech recognition, vision language models, large language models, and text-to-speech, with dynamic routing between voice-only and vision-only modes to enable natural voice-based communication, scene description, and object localization from visual input. The system is evaluated through a combination of simulation-based tests, real-world field experiments, and user-centered studies. Results from simulated and real indoor environments demonstrate reliable obstacle avoidance and socially compliant navigation, achieving an overall system accuracy of approximately 80% under different social conditions. Group activity recognition further shows robust performance across diverse crowd scenarios. In addition, a preliminary exploratory user study with eight visually impaired and low-vision participants evaluates the agentic interaction framework through structured tasks and a UTAUT-based questionnaire reveals high acceptance and positive perceptions of usability, trust, and perceived sociability during our experiments. The results highlight the potential of PISHYAR as a multimodal assistive mobility aid that extends beyond navigation to provide socially interactive support for such users.