Urban Safety Perception Assessments via Integrating Multimodal Large Language Models with Street View Images

📄 arXiv: 2407.19719v3 📥 PDF

作者: Jiaxin Zhang, Yunqin Li, Tomohiro Fukuda, Bowen Wang

分类: cs.CV

发布日期: 2024-07-29 (更新: 2025-06-02)

备注: 15 pages, 10 figures


💡 一句话要点

提出结合多模态大语言模型与街景图像的城市安全感知评估方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 城市安全感知 多模态大语言模型 街景图像 CLIP K近邻 零样本学习 城市规划

📋 核心要点

  1. 现有城市安全评估依赖人工标注和深度学习,成本高昂且模型迁移性差,难以实现全自动大规模评估。
  2. 利用多模态大语言模型(MLLM)的强大推理能力,结合街景图像,直接进行城市安全排序。
  3. 实验表明,该方法无需训练即可超越现有深度学习方法,实现高效准确的城市安全评估。

📝 摘要(中文)

城市安全感知评估是一项重要而复杂的任务,传统上严重依赖人力资源。该过程通常涉及广泛的实地调查、人工数据收集和主观评估,这可能耗时、成本高且有时不一致。街景图像(SVI)与深度学习方法相结合,为实现大规模城市安全检测提供了一种途径。然而,实现这一目标通常需要大量的人工标注来训练安全排序模型,并且城市之间的架构差异阻碍了这些模型的可迁移性。因此,一种全自动的安全评估方法至关重要。多模态大语言模型(MLLM)的最新进展已经展示了强大的推理和分析能力。前沿模型,例如GPT-4,在许多任务中表现出令人惊讶的性能。我们采用这些模型对人工标注的锚定集进行城市安全排序,并验证了MLLM的结果与人类感知密切相关。此外,我们提出了一种基于预训练的对比语言-图像预训练(CLIP)特征和K近邻(K-NN)检索的方法,以快速评估整个城市的安全指数。实验结果表明,我们的方法优于现有的需要深度学习训练的方法,实现了高效准确的城市安全评估。所提出的城市安全感知评估自动化对于旨在改善城市环境的城市规划者、政策制定者和研究人员来说,是一种有价值的工具。

🔬 方法详解

问题定义:论文旨在解决城市安全感知评估中人工标注成本高、深度学习模型迁移性差的问题。现有方法需要大量人工标注训练安全排序模型,且不同城市建筑风格差异导致模型泛化能力不足,难以实现全自动、大规模的城市安全评估。

核心思路:论文的核心思路是利用多模态大语言模型(MLLM)强大的视觉理解和推理能力,直接从街景图像中提取安全相关的特征,并进行安全等级排序,从而避免了对大量标注数据的依赖。同时,结合CLIP特征和K-NN检索,实现城市级别的快速安全评估。

技术框架:整体框架包含两个主要阶段:1) 使用MLLM(如GPT-4)对少量人工标注的锚定街景图像进行安全排序,验证MLLM与人类感知的对齐性。2) 利用预训练的CLIP模型提取所有街景图像的视觉特征,然后使用K-NN算法在锚定图像的CLIP特征空间中检索最相似的图像,并将其安全等级作为该街景图像的安全等级。

关键创新:最重要的创新点在于利用MLLM的零样本学习能力,直接进行城市安全评估,无需针对特定城市进行训练。这与传统的深度学习方法需要大量标注数据和模型微调形成了鲜明对比。此外,结合CLIP特征和K-NN检索,实现了城市级别的快速安全评估。

关键设计:论文的关键设计包括:1) 选择合适的MLLM模型(如GPT-4)进行安全排序,并进行prompt工程以优化模型性能。2) 使用CLIP模型提取街景图像的视觉特征,并选择合适的距离度量(如余弦相似度)进行K-NN检索。3) 通过实验验证MLLM与人类感知的对齐性,并评估K-NN检索的准确性和效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在城市安全评估任务中表现出色,无需训练即可超越现有深度学习方法。通过MLLM对人工标注锚定集的安全排序结果与人类感知高度一致,验证了MLLM在城市安全评估方面的潜力。此外,基于CLIP特征和K-NN检索的方法能够快速评估整个城市的安全指数,实现了高效准确的城市安全评估。

🎯 应用场景

该研究成果可应用于城市规划、公共安全管理、房地产评估等领域。城市规划者可以利用该方法快速评估城市不同区域的安全状况,从而制定更合理的规划方案。公共安全部门可以利用该方法监测城市安全风险,及时采取干预措施。房地产公司可以利用该方法评估房产周边的安全环境,为购房者提供参考。

📄 摘要(原文)

Measuring urban safety perception is an important and complex task that traditionally relies heavily on human resources. This process often involves extensive field surveys, manual data collection, and subjective assessments, which can be time-consuming, costly, and sometimes inconsistent. Street View Images (SVIs), along with deep learning methods, provide a way to realize large-scale urban safety detection. However, achieving this goal often requires extensive human annotation to train safety ranking models, and the architectural differences between cities hinder the transferability of these models. Thus, a fully automated method for conducting safety evaluations is essential. Recent advances in multimodal large language models (MLLMs) have demonstrated powerful reasoning and analytical capabilities. Cutting-edge models, e.g., GPT-4 have shown surprising performance in many tasks. We employed these models for urban safety ranking on a human-annotated anchor set and validated that the results from MLLMs align closely with human perceptions. Additionally, we proposed a method based on the pre-trained Contrastive Language-Image Pre-training (CLIP) feature and K-Nearest Neighbors (K-NN) retrieval to quickly assess the safety index of the entire city. Experimental results show that our method outperforms existing training needed deep learning approaches, achieving efficient and accurate urban safety evaluations. The proposed automation for urban safety perception assessment is a valuable tool for city planners, policymakers, and researchers aiming to improve urban environments.