Persona-aware and Explainable Bikeability Assessment: A Vision-Language Model Approach

📄 arXiv: 2601.03534v1 📥 PDF

作者: Yilong Dai, Ziyi Wang, Chenguang Wang, Kexin Zhou, Yiheng Qian, Susu Xu, Xiang Yan

分类: cs.CL, cs.CV, cs.HC, cs.LG

发布日期: 2026-01-07


💡 一句话要点

提出Persona感知的可解释自行车友好度评估视觉-语言模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自行车友好度评估 视觉-语言模型 Persona感知 可解释性AI 思维链推理

📋 核心要点

  1. 现有自行车友好度评估方法难以捕捉复杂道路环境和用户感知异质性。
  2. 提出Persona感知的视觉-语言模型,结合骑行者类型学和思维链推理,实现可解释评估。
  3. 通过众包数据和AI数据增强验证框架,实现自行车友好度评分预测和因素归因。

📝 摘要(中文)

自行车友好度评估对于推进可持续城市交通和创建适合骑行者的城市至关重要,这需要结合用户对安全和舒适度的感知。然而,现有的基于感知的自行车友好度评估方法在捕捉道路环境的复杂性以及充分考虑主观用户感知方面的异质性方面面临关键限制。本文提出了一个Persona感知的视觉-语言模型框架,用于自行车友好度评估,具有三个创新点:(i)基于已建立的骑行者类型学,进行理论驱动的Persona条件化,通过思维链推理生成特定于Persona的解释;(ii)多粒度监督微调,结合稀缺的专家标注推理和丰富的用户评分,用于联合预测和可解释的评估;(iii)AI驱动的数据增强,创建受控的配对数据,以隔离基础设施变量的影响。为了测试和验证该框架,我们开发了一个基于全景图像的众包系统,并从427名骑行者那里收集了12,400个Persona条件化的评估。实验结果表明,所提出的框架提供了具有竞争力的自行车友好度评分预测,同时独特地实现了可解释的因素归因。

🔬 方法详解

问题定义:现有基于感知的自行车友好度评估方法难以捕捉复杂道路环境的细微差别,并且未能充分考虑不同用户群体(即不同Persona)的主观感知差异。这导致评估结果缺乏个性化和可解释性,难以指导城市规划者进行有针对性的改进。

核心思路:论文的核心思路是利用视觉-语言模型,并引入Persona的概念,使模型能够理解不同类型骑行者对道路环境的偏好和需求。通过思维链推理,模型可以生成针对特定Persona的、可解释的评估结果,从而提高评估的个性化和透明度。

技术框架:该框架主要包含以下几个模块:1) 全景图像输入模块,用于获取道路环境的视觉信息;2) Persona编码模块,根据骑行者类型学对Persona进行编码;3) 视觉-语言模型,将图像信息和Persona编码结合,进行自行车友好度评分预测和解释生成;4) 多粒度监督微调模块,利用专家标注数据和用户评分数据对模型进行训练;5) AI驱动的数据增强模块,生成配对数据以隔离基础设施变量的影响。

关键创新:该论文的关键创新在于:1) 引入Persona的概念,使模型能够理解不同用户群体的需求;2) 采用思维链推理,生成可解释的评估结果;3) 提出多粒度监督微调方法,有效利用不同来源的数据;4) 利用AI进行数据增强,控制变量的影响。

关键设计:在Persona编码方面,论文基于已建立的骑行者类型学,例如“冒险者”、“通勤者”等,为每个Persona定义一组属性。在视觉-语言模型方面,具体使用的模型结构未知,但可以推测使用了Transformer架构,以实现视觉信息和文本信息的融合。损失函数的设计可能包括评分预测的均方误差损失和解释生成的交叉熵损失。数据增强方面,通过修改图像中的基础设施变量(例如自行车道宽度、交通流量等)来生成配对数据。

📊 实验亮点

实验结果表明,该框架在自行车友好度评分预测方面具有竞争力,并且能够生成针对特定Persona的可解释的评估结果。具体性能数据未知,但论文强调了其在可解释性方面的独特优势,能够进行因素归因,即解释哪些因素影响了特定Persona对某一路段的自行车友好度评价。

🎯 应用场景

该研究成果可应用于城市规划、交通管理和自行车导航等领域。通过提供个性化和可解释的自行车友好度评估,可以帮助城市规划者识别和改进不适合骑行的路段,提高骑行者的安全性和舒适度,从而促进可持续城市交通的发展。此外,该技术还可以集成到自行车导航App中,为用户提供更智能的路线规划建议。

📄 摘要(原文)

Bikeability assessment is essential for advancing sustainable urban transportation and creating cyclist-friendly cities, and it requires incorporating users' perceptions of safety and comfort. Yet existing perception-based bikeability assessment approaches face key limitations in capturing the complexity of road environments and adequately accounting for heterogeneity in subjective user perceptions. This paper proposes a persona-aware Vision-Language Model framework for bikeability assessment with three novel contributions: (i) theory-grounded persona conditioning based on established cyclist typology that generates persona-specific explanations via chain-of-thought reasoning; (ii) multi-granularity supervised fine-tuning that combines scarce expert-annotated reasoning with abundant user ratings for joint prediction and explainable assessment; and (iii) AI-enabled data augmentation that creates controlled paired data to isolate infrastructure variable impacts. To test and validate this framework, we developed a panoramic image-based crowdsourcing system and collected 12,400 persona-conditioned assessments from 427 cyclists. Experiment results show that the proposed framework offers competitive bikeability rating prediction while uniquely enabling explainable factor attribution.