Video-to-Text Pedestrian Monitoring (VTPM): Leveraging Computer Vision and Large Language Models for Privacy-Preserve Pedestrian Activity Monitoring at Intersections

📄 arXiv: 2408.11649v1 📥 PDF

作者: Ahmed S. Abdelrahman, Mohamed Abdel-Aty, Dongdong Wang

分类: cs.CV, cs.AI

发布日期: 2024-08-21


💡 一句话要点

提出VTPM,利用计算机视觉和LLM实现保护隐私的交叉路口行人活动监测。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 行人监测 计算机视觉 大语言模型 隐私保护 智能交通 文本报告生成 交通安全

📋 核心要点

  1. 现有交通监控系统无法有效保护视频中行人的隐私,存在潜在的身份泄露风险。
  2. VTPM通过计算机视觉技术检测行人,并利用大语言模型生成文本报告,实现隐私保护的行人活动监测。
  3. VTPM在行人检测和闯红灯检测方面表现出色,并大幅降低了存储需求,同时支持历史数据分析。

📝 摘要(中文)

本文提出了一种名为Video-to-Text Pedestrian Monitoring (VTPM) 的行人监测方法,旨在解决现有交通监控系统无法保护行人隐私的问题。VTPM系统能够监测交叉路口的行人活动,并生成包含交通信号和天气信息的实时文本报告。该系统采用计算机视觉模型进行行人检测和跟踪,延迟为每帧0.05秒。结合交通信号数据,VTPM能够以90.2%的准确率检测闯红灯行为。系统使用Phi-3 mini-4k生成行人活动的实时文本报告,并指出安全问题,如闯红灯、冲突以及天气对行人行为的影响,延迟为0.33秒。为了更全面地分析生成的文本报告,对Phi-3 medium进行了微调,用于历史数据分析,从而更可靠地分析交叉路口的行人安全,有效检测模式和关键安全事件。VTPM通过使用文本报告,提供了一种比视频素材更有效的替代方案,减少了内存使用,节省高达25300万%,消除了隐私问题,并实现了全面的交互式历史分析。

🔬 方法详解

问题定义:现有交通监控系统依赖视频数据,存在泄露行人隐私的风险,并且视频数据存储量大,不利于长期分析和检索。因此,需要一种既能监测行人活动,又能保护行人隐私,同时降低存储成本的解决方案。

核心思路:VTPM的核心思路是将视频数据转换为文本报告,利用计算机视觉技术提取行人信息,然后使用大语言模型将这些信息转化为自然语言描述。这样既可以保留行人活动的关键信息,又避免了直接存储视频数据,从而保护了行人隐私。

技术框架:VTPM系统主要包含以下几个模块:1) 行人检测与跟踪模块:使用计算机视觉模型检测和跟踪视频中的行人。2) 交通信号检测模块:检测交通信号灯的状态。3) 文本报告生成模块:使用Phi-3 mini-4k模型,根据行人活动、交通信号和天气信息生成实时文本报告。4) 历史数据分析模块:使用微调后的Phi-3 medium模型,对历史文本报告进行分析,识别潜在的安全风险。

关键创新:VTPM的关键创新在于将计算机视觉技术与大语言模型相结合,实现了一种隐私保护的行人活动监测方法。通过将视频数据转换为文本报告,有效降低了存储需求,并支持对历史数据进行深入分析。

关键设计:行人检测与跟踪模块采用的模型未知,但论文提到延迟为0.05秒/帧。闯红灯检测模块结合了行人位置和交通信号灯状态,准确率达到90.2%。文本报告生成模块使用了Phi-3 mini-4k模型,延迟为0.33秒。历史数据分析模块对Phi-3 medium进行了微调,具体微调方法未知。

📊 实验亮点

VTPM系统在行人检测和跟踪方面实现了0.05秒/帧的低延迟。闯红灯检测准确率达到90.2%。通过将视频数据转换为文本报告,存储空间节省高达25300万%。此外,通过对Phi-3 medium进行微调,实现了对历史文本报告的深入分析,能够有效检测潜在的安全风险。

🎯 应用场景

VTPM可应用于智能交通管理、城市规划和公共安全等领域。通过实时监测行人活动并生成文本报告,可以帮助交通管理部门更好地了解行人行为模式,及时发现安全隐患,并制定相应的交通管理策略。此外,VTPM还可以为城市规划提供数据支持,例如评估行人流量、优化行人设施等。

📄 摘要(原文)

Computer vision has advanced research methodologies, enhancing system services across various fields. It is a core component in traffic monitoring systems for improving road safety; however, these monitoring systems don't preserve the privacy of pedestrians who appear in the videos, potentially revealing their identities. Addressing this issue, our paper introduces Video-to-Text Pedestrian Monitoring (VTPM), which monitors pedestrian movements at intersections and generates real-time textual reports, including traffic signal and weather information. VTPM uses computer vision models for pedestrian detection and tracking, achieving a latency of 0.05 seconds per video frame. Additionally, it detects crossing violations with 90.2% accuracy by incorporating traffic signal data. The proposed framework is equipped with Phi-3 mini-4k to generate real-time textual reports of pedestrian activity while stating safety concerns like crossing violations, conflicts, and the impact of weather on their behavior with latency of 0.33 seconds. To enhance comprehensive analysis of the generated textual reports, Phi-3 medium is fine-tuned for historical analysis of these generated textual reports. This fine-tuning enables more reliable analysis about the pedestrian safety at intersections, effectively detecting patterns and safety critical events. The proposed VTPM offers a more efficient alternative to video footage by using textual reports reducing memory usage, saving up to 253 million percent, eliminating privacy issues, and enabling comprehensive interactive historical analysis.