Urban Risk-Aware Navigation via VQA-Based Event Maps for People with Low Vision

📄 arXiv: 2605.11782v1 📥 PDF

作者: Antoni Valls, Jordi Sanchez-Riera

分类: cs.CV

发布日期: 2026-05-12

备注: 10 pages, 6 figures, submitted to IEEE T-ITS


💡 一句话要点

提出基于VQA事件地图的城市风险感知导航系统,辅助低视力人群安全出行。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉问答 低视力辅助 风险感知导航 视觉-语言模型 事件地图

📋 核心要点

  1. 现有辅助导航系统依赖于特定任务的视觉流程,缺乏灵活性和泛化能力,难以适应复杂多变的城市环境。
  2. 提出基于视觉问答的事件地图框架,利用视觉-语言模型进行场景理解和危险识别,无需针对特定任务进行重新训练。
  3. 实验结果表明,生成式多模态大型语言模型在精度和召回率上优于传统方法,证明了该方法在辅助导航中的可行性。

📝 摘要(中文)

视觉障碍影响着全球数亿人,严重限制了他们安全、独立地在城市环境中导航的能力。虽然可穿戴辅助设备为实时危险检测提供了一个有前景的平台,但现有方法依赖于缺乏灵活性和泛化能力的特定任务视觉流程。本文提出了一种基于视觉问答的事件地图框架,该框架利用视觉-语言模型(VLM)进行行人场景描述和跨不同真实世界环境的危险识别,使用三级分层查询结构来实现细粒度的场景理解,而无需特定任务的重新训练。模型响应被聚合到一个加权风险评分系统中,该系统将街道划分为四个离散的安全类别,从而生成可导航的风险感知事件地图以进行路线规划。为了支持评估和未来的研究,我们引入了一个地理上多样化的数据集,涵盖六大洲的20个城市,包含超过800张带注释的图像和18,000个已回答的问题。我们对四种VQA架构——ViLT、LLaVA、InstructBLIP和Qwen-VL——进行了基准测试,发现生成式多模态大型语言模型(MLLM)明显优于基于分类的方法,其中Qwen-VL在精度和召回率之间实现了最佳的整体平衡。这些结果证明了MLLM作为视力障碍人士辅助导航系统的灵活和通用基础的可行性。

🔬 方法详解

问题定义:论文旨在解决低视力人群在城市环境中安全导航的问题。现有方法通常依赖于针对特定危险(如车辆、障碍物)训练的视觉系统,缺乏通用性和适应性,难以应对复杂多变的城市环境。这些方法需要大量特定场景的标注数据,且难以泛化到新的场景和危险类型。

核心思路:论文的核心思路是利用视觉-语言模型(VLM)的强大场景理解能力,通过视觉问答(VQA)的方式获取场景中的风险信息,并构建风险感知的事件地图。这种方法无需针对特定危险进行训练,具有更强的通用性和适应性。通过分层查询结构,可以实现细粒度的场景理解。

技术框架:该方法包含以下几个主要步骤:1) 使用可穿戴设备采集城市环境图像;2) 使用三级分层查询结构,向VLM提出问题,获取场景描述和风险信息;3) 将VLM的回答进行加权,计算每个街道片段的风险评分;4) 将街道片段划分为不同的安全等级,构建风险感知的事件地图;5) 使用事件地图进行路线规划,为低视力人群提供安全的导航路径。

关键创新:该方法最重要的创新点在于利用VLM进行场景理解和风险识别,避免了传统方法对特定任务的依赖。通过视觉问答的方式,可以灵活地获取场景中的各种信息,并根据不同的需求进行定制。此外,三级分层查询结构可以实现更细粒度的场景理解。

关键设计:三级分层查询结构是关键设计之一,它包含:1) 场景描述层,用于获取场景的整体描述;2) 对象识别层,用于识别场景中的关键对象;3) 风险评估层,用于评估场景中的风险。风险评分系统使用加权平均的方式,将VLM的回答转化为风险值。论文中使用了四种VQA模型(ViLT, LLaVA, InstructBLIP, Qwen-VL)进行实验,并比较了它们的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于生成式多模态大型语言模型(MLLM)的VQA方法在城市风险感知导航任务中表现出色,显著优于传统的基于分类的方法。其中,Qwen-VL模型在精度和召回率之间取得了最佳平衡,证明了MLLM在辅助导航领域的潜力。该研究还构建了一个包含20个城市、800多张图像和18000个问答对的大规模数据集,为未来的研究提供了宝贵资源。

🎯 应用场景

该研究成果可应用于开发面向低视力人群的智能辅助导航系统,帮助他们更安全、独立地在城市环境中出行。此外,该方法也可扩展到其他领域,如机器人导航、自动驾驶等,提高机器人在复杂环境中的感知和决策能力。未来,结合更先进的VLM和传感器技术,有望实现更精确、更可靠的风险感知导航。

📄 摘要(原文)

Visual impairment affects hundreds of millions of people worldwide, severely limiting their ability to navigate urban environments safely and independently. While wearable assistive devices offer a promising platform for real-time hazard detection, existing approaches rely on task-specific vision pipelines that lack flexibility and generalizability. In this work, we propose an event map framework based on visual question answering that leverages Vision-Language Models (VLMs) for pedestrian scene description and hazard identification across diverse real-world environments, using a three-level hierarchical query structure to enable fine-grained scene understanding without task-specific retraining. Model responses are aggregated into a weighted risk scoring system that maps street segments into four discrete safety categories, producing navigable risk-aware event maps for route planning. To support evaluation and future research, we introduce a geographically diverse dataset spanning 20 cities across six continents, comprising over 800 annotated images and 18,000 answered questions. We benchmark four VQA architectures -ViLT, LLaVA, InstructBLIP, and Qwen-VL- and find that generative Multimodal Large Language Models (MLLMs) substantially outperform classification-based approaches, with Qwen-VL achieving the best overall balance of precision and recall. These results demonstrate the viability of MLLMs as a flexible and generalizable foundation for assistive navigation systems for visually impaired people.