MR.NAVI: Mixed-Reality Navigation Assistant for the Visually Impaired

📄 arXiv: 2506.05369v1 📥 PDF

作者: Nicolas Pfitzer, Yifan Zhou, Marco Poggensee, Defne Kurtulus, Bessie Dominguez-Dager, Mihai Dusmanu, Marc Pollefeys, Zuria Bauer

分类: cs.CV

发布日期: 2025-05-28


💡 一句话要点

MR.NAVI:面向视障人士的混合现实导航助手

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 混合现实 视障辅助 计算机视觉 自然语言处理 导航系统 场景理解 音频反馈

📋 核心要点

  1. 视障人士在陌生环境中导航困难,现有技术缺乏实时场景理解和直观反馈。
  2. MR.NAVI利用混合现实技术,结合计算机视觉和自然语言处理,提供场景描述和导航。
  3. 用户实验表明,MR.NAVI在场景描述和导航方面具有良好的可用性和有效性。

📝 摘要(中文)

全球有超过4300万人患有严重的视力障碍,他们在不熟悉的环境中导航面临着巨大的挑战。我们提出了MR.NAVI,一个混合现实系统,通过实时场景理解和直观的音频反馈来增强视障用户的空间感知能力。我们的系统结合了计算机视觉算法(用于物体检测和深度估计)与自然语言处理技术,以提供上下文场景描述、主动避撞和导航指令。该分布式架构通过MobileNet处理传感器数据进行物体检测,并采用基于RANSAC的地面检测和DBSCAN聚类进行障碍物规避。与公共交通API的集成实现了公共交通方向的导航。通过用户研究实验,我们评估了在不熟悉环境中的场景描述和导航功能,显示出良好的可用性和有效性。

🔬 方法详解

问题定义:论文旨在解决视障人士在陌生环境中安全、高效导航的问题。现有方法通常依赖于GPS或预先构建的地图,无法应对动态变化的环境,并且缺乏对周围环境的细致理解,导致用户体验不佳,甚至存在安全隐患。

核心思路:论文的核心思路是利用混合现实技术,通过实时感知周围环境,并以直观的音频反馈向用户提供导航信息。通过计算机视觉算法理解场景,并结合自然语言处理技术生成易于理解的场景描述和导航指令,从而增强视障用户的空间感知能力。

技术框架:MR.NAVI系统采用分布式架构,主要包含以下模块:1) 传感器数据采集模块:负责采集来自混合现实设备的图像和深度数据;2) 场景理解模块:利用MobileNet进行物体检测,采用RANSAC进行地面检测,并使用DBSCAN进行障碍物聚类;3) 自然语言处理模块:生成场景描述和导航指令;4) 音频反馈模块:将导航信息转化为音频信号,向用户提供导航指引;5) 公共交通API集成模块:获取公共交通路线信息。

关键创新:该论文的关键创新在于将计算机视觉、自然语言处理和混合现实技术相结合,构建了一个完整的视障人士导航辅助系统。该系统能够实时感知周围环境,并以直观的音频反馈向用户提供导航信息,从而显著提升了视障用户的导航体验和安全性。

关键设计:在物体检测方面,采用了轻量级的MobileNet模型,以保证实时性。在地面检测方面,采用了RANSAC算法,以提高鲁棒性。在障碍物聚类方面,采用了DBSCAN算法,以适应不同形状和大小的障碍物。音频反馈的设计考虑了用户的听觉感知特性,采用了清晰、简洁的语音提示。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

用户研究表明,MR.NAVI在场景描述和导航方面具有良好的可用性和有效性。用户能够通过系统提供的音频反馈有效地理解周围环境,并安全地到达目的地。具体性能数据未知,但用户反馈表明系统显著提升了他们的导航体验。

🎯 应用场景

MR.NAVI可应用于室内和室外等多种场景,帮助视障人士在商场、博物馆、公共交通站点等复杂环境中独立安全地导航。该技术还可扩展到其他辅助技术领域,例如为老年人或认知障碍患者提供导航辅助,提高他们的生活质量和独立性。

📄 摘要(原文)

Over 43 million people worldwide live with severe visual impairment, facing significant challenges in navigating unfamiliar environments. We present MR.NAVI, a mixed reality system that enhances spatial awareness for visually impaired users through real-time scene understanding and intuitive audio feedback. Our system combines computer vision algorithms for object detection and depth estimation with natural language processing to provide contextual scene descriptions, proactive collision avoidance, and navigation instructions. The distributed architecture processes sensor data through MobileNet for object detection and employs RANSAC-based floor detection with DBSCAN clustering for obstacle avoidance. Integration with public transit APIs enables navigation with public transportation directions. Through our experiments with user studies, we evaluated both scene description and navigation functionalities in unfamiliar environments, showing promising usability and effectiveness.