Urban Risk-Aware Navigation via VQA-Based Event Maps for People with Low Vision

作者: Antoni Valls, Jordi Sanchez-Riera

分类: cs.CV

发布日期: 2026-05-12

备注: 10 pages, 6 figures, submitted to IEEE T-ITS

💡 一句话要点

提出基于VQA事件地图的城市风险感知导航系统，辅助低视力人群安全出行。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉问答 低视力辅助 风险感知导航 视觉-语言模型 事件地图

📋 核心要点

现有辅助导航系统依赖于特定任务的视觉流程，缺乏灵活性和泛化能力，难以适应复杂多变的城市环境。
提出基于视觉问答的事件地图框架，利用视觉-语言模型进行场景理解和危险识别，无需针对特定任务进行重新训练。
实验结果表明，生成式多模态大型语言模型在精度和召回率上优于传统方法，证明了该方法在辅助导航中的可行性。

📝 摘要（中文）

视觉障碍影响着全球数亿人，严重限制了他们安全、独立地在城市环境中导航的能力。虽然可穿戴辅助设备为实时危险检测提供了一个有前景的平台，但现有方法依赖于缺乏灵活性和泛化能力的特定任务视觉流程。本文提出了一种基于视觉问答的事件地图框架，该框架利用视觉-语言模型（VLM）进行行人场景描述和跨不同真实世界环境的危险识别，使用三级分层查询结构来实现细粒度的场景理解，而无需特定任务的重新训练。模型响应被聚合到一个加权风险评分系统中，该系统将街道划分为四个离散的安全类别，从而生成可导航的风险感知事件地图以进行路线规划。为了支持评估和未来的研究，我们引入了一个地理上多样化的数据集，涵盖六大洲的20个城市，包含超过800张带注释的图像和18,000个已回答的问题。我们对四种VQA架构——ViLT、LLaVA、InstructBLIP和Qwen-VL——进行了基准测试，发现生成式多模态大型语言模型（MLLM）明显优于基于分类的方法，其中Qwen-VL在精度和召回率之间实现了最佳的整体平衡。这些结果证明了MLLM作为视力障碍人士辅助导航系统的灵活和通用基础的可行性。

🔬 方法详解

问题定义：论文旨在解决低视力人群在城市环境中安全导航的问题。现有方法通常依赖于针对特定危险（如车辆、障碍物）训练的视觉系统，缺乏通用性和适应性，难以应对复杂多变的城市环境。这些方法需要大量特定场景的标注数据，且难以泛化到新的场景和危险类型。

核心思路：论文的核心思路是利用视觉-语言模型（VLM）的强大场景理解能力，通过视觉问答（VQA）的方式获取场景中的风险信息，并构建风险感知的事件地图。这种方法无需针对特定危险进行训练，具有更强的通用性和适应性。通过分层查询结构，可以实现细粒度的场景理解。

技术框架：该方法包含以下几个主要步骤：1) 使用可穿戴设备采集城市环境图像；2) 使用三级分层查询结构，向VLM提出问题，获取场景描述和风险信息；3) 将VLM的回答进行加权，计算每个街道片段的风险评分；4) 将街道片段划分为不同的安全等级，构建风险感知的事件地图；5) 使用事件地图进行路线规划，为低视力人群提供安全的导航路径。

关键创新：该方法最重要的创新点在于利用VLM进行场景理解和风险识别，避免了传统方法对特定任务的依赖。通过视觉问答的方式，可以灵活地获取场景中的各种信息，并根据不同的需求进行定制。此外，三级分层查询结构可以实现更细粒度的场景理解。

关键设计：三级分层查询结构是关键设计之一，它包含：1) 场景描述层，用于获取场景的整体描述；2) 对象识别层，用于识别场景中的关键对象；3) 风险评估层，用于评估场景中的风险。风险评分系统使用加权平均的方式，将VLM的回答转化为风险值。论文中使用了四种VQA模型（ViLT, LLaVA, InstructBLIP, Qwen-VL）进行实验，并比较了它们的性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，基于生成式多模态大型语言模型（MLLM）的VQA方法在城市风险感知导航任务中表现出色，显著优于传统的基于分类的方法。其中，Qwen-VL模型在精度和召回率之间取得了最佳平衡，证明了MLLM在辅助导航领域的潜力。该研究还构建了一个包含20个城市、800多张图像和18000个问答对的大规模数据集，为未来的研究提供了宝贵资源。

🎯 应用场景

该研究成果可应用于开发面向低视力人群的智能辅助导航系统，帮助他们更安全、独立地在城市环境中出行。此外，该方法也可扩展到其他领域，如机器人导航、自动驾驶等，提高机器人在复杂环境中的感知和决策能力。未来，结合更先进的VLM和传感器技术，有望实现更精确、更可靠的风险感知导航。

📄 摘要（原文）

Visual impairment affects hundreds of millions of people worldwide, severely limiting their ability to navigate urban environments safely and independently. While wearable assistive devices offer a promising platform for real-time hazard detection, existing approaches rely on task-specific vision pipelines that lack flexibility and generalizability. In this work, we propose an event map framework based on visual question answering that leverages Vision-Language Models (VLMs) for pedestrian scene description and hazard identification across diverse real-world environments, using a three-level hierarchical query structure to enable fine-grained scene understanding without task-specific retraining. Model responses are aggregated into a weighted risk scoring system that maps street segments into four discrete safety categories, producing navigable risk-aware event maps for route planning. To support evaluation and future research, we introduce a geographically diverse dataset spanning 20 cities across six continents, comprising over 800 annotated images and 18,000 answered questions. We benchmark four VQA architectures -ViLT, LLaVA, InstructBLIP, and Qwen-VL- and find that generative Multimodal Large Language Models (MLLMs) substantially outperform classification-based approaches, with Qwen-VL achieving the best overall balance of precision and recall. These results demonstrate the viability of MLLMs as a flexible and generalizable foundation for assistive navigation systems for visually impaired people.

Urban Risk-Aware Navigation via VQA-Based Event Maps for People with Low Vision

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理