PFM-VEPAR: Prompting Foundation Models for RGB-Event Camera based Pedestrian Attribute Recognition
作者: Minghe Xu, Rouying Wu, ChiaWei Chu, Xiao Wang, Yu Li
分类: cs.CV, cs.AI, cs.LG
发布日期: 2026-03-20
🔗 代码/项目: GITHUB
💡 一句话要点
提出PFM-VEPAR框架,利用事件相机信息提升低光照和运动模糊场景下的行人属性识别
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 行人属性识别 RGB-事件相机 多模态融合 频域特征提取 关联记忆网络
📋 核心要点
- 现有双流多模态融合方法计算开销大,且忽略了上下文样本的指导信息,限制了RGB-事件相机行人属性识别的性能。
- 提出Event Prompter模块,通过DCT/IDCT操作提取事件数据的频域特征,以极低的计算成本增强RGB分支,并引入外部记忆库和Hopfield网络。
- 实验结果表明,该方法在多个基准数据集上有效提升了RGB-事件相机行人属性识别的准确性,验证了所提出框架的有效性。
📝 摘要(中文)
本文提出了一种基于RGB-事件相机的行人属性识别(PAR)框架PFM-VEPAR,旨在利用运动线索增强RGB相机在低光照和运动模糊场景下的性能,从而更准确地推断年龄和情绪等属性。该方法通过Event Prompter模块,使用轻量级的离散余弦变换(DCT)和逆离散余弦变换(IDCT)从事件数据中提取频域特征,有效增强RGB分支,避免了传统双流融合方法的高计算开销。此外,结合外部记忆库和现代Hopfield网络,实现关联记忆增强的表征学习,挖掘和利用不同样本间的全局关系知识。最后,通过交叉注意力机制融合RGB和事件模态,并使用前馈网络进行属性预测。在多个基准数据集上的实验验证了该框架的有效性。
🔬 方法详解
问题定义:现有的基于RGB-事件相机的行人属性识别方法,通常采用双流结构,分别处理RGB图像和事件数据,然后进行特征融合。这种方法计算复杂度高,尤其是在事件数据处理上。此外,现有方法往往忽略了不同样本之间的关联性,缺乏对全局上下文信息的有效利用,导致识别精度受限。
核心思路:本文的核心思路是利用Event Prompter模块,以极低的计算成本从事件数据中提取有用的特征,并将其融入到RGB特征中,从而避免了复杂的双流结构。同时,引入外部记忆库和Hopfield网络,学习样本之间的关联性,从而利用全局上下文信息提升识别精度。
技术框架:PFM-VEPAR框架主要包含以下几个模块:1) Event Prompter:对事件数据进行DCT和IDCT变换,提取频域特征;2) 外部记忆库和Hopfield网络:存储和检索样本的全局关系知识;3) 交叉注意力机制:融合RGB和事件模态的特征;4) 属性预测模块:使用前馈网络进行属性预测。整体流程是,首先通过Event Prompter提取事件特征,然后利用外部记忆库和Hopfield网络增强RGB特征,最后通过交叉注意力机制融合两种模态的特征,并进行属性预测。
关键创新:该论文的关键创新在于以下几点:1) 提出了Event Prompter模块,使用DCT/IDCT操作高效地提取事件数据的频域特征,避免了复杂的事件数据处理流程;2) 引入了外部记忆库和Hopfield网络,实现了关联记忆增强的表征学习,从而能够利用全局上下文信息;3) 将Event Prompter与外部记忆库/Hopfield网络相结合,形成了一个完整的RGB-事件相机行人属性识别框架。
关键设计:Event Prompter模块中,DCT和IDCT变换的具体参数设置需要根据事件数据的特性进行调整。外部记忆库的大小和Hopfield网络的参数也需要根据数据集的大小和复杂度进行调整。交叉注意力机制中,注意力头的数量和维度需要进行实验验证。损失函数方面,可以使用交叉熵损失函数或其变体,并根据实际情况进行调整。
🖼️ 关键图片
📊 实验亮点
论文在多个基准数据集上进行了实验,验证了PFM-VEPAR框架的有效性。实验结果表明,该方法在行人属性识别的准确率方面取得了显著提升,尤其是在低光照和运动模糊等场景下。具体的性能数据和对比基线需要在论文中查找,但总体而言,该方法在性能上优于现有的RGB-事件相机行人属性识别方法。
🎯 应用场景
该研究成果可应用于智能安防、自动驾驶、机器人导航等领域。在低光照、运动模糊等恶劣环境下,能够更准确地识别行人属性,提高系统的鲁棒性和可靠性。例如,在夜间监控场景中,可以利用该技术识别行人的年龄、性别、情绪等信息,从而更好地进行安全预警和事件响应。未来,该技术有望在智慧城市建设中发挥重要作用。
📄 摘要(原文)
Event-based pedestrian attribute recognition (PAR) leverages motion cues to enhance RGB cameras in low-light and motion-blur scenarios, enabling more accurate inference of attributes like age and emotion. However, existing two-stream multimodal fusion methods introduce significant computational overhead and neglect the valuable guidance from contextual samples. To address these limitations, this paper proposes an Event Prompter. Discarding the computationally expensive auxiliary backbone, this module directly applies extremely lightweight and efficient Discrete Cosine Transform (DCT) and Inverse DCT (IDCT) operations to the event data. This design extracts frequency-domain event features at a minimal computational cost, thereby effectively augmenting the RGB branch. Furthermore, an external memory bank designed to provide rich prior knowledge, combined with modern Hopfield networks, enables associative memory-augmented representation learning. This mechanism effectively mines and leverages global relational knowledge across different samples. Finally, a cross-attention mechanism fuses the RGB and event modalities, followed by feed-forward networks for attribute prediction. Extensive experiments on multiple benchmark datasets fully validate the effectiveness of the proposed RGB-Event PAR framework. The source code of this paper will be released on https://github.com/Event-AHU/OpenPAR