When Gender is Hard to See: Multi-Attribute Support for Long-Range Recognition
作者: Nzakiese Mbongo, Kailash A. Hambarde, Hugo Proença
分类: cs.CV, cs.AI
发布日期: 2025-12-06
备注: 12 pages, 9 figures
💡 一句话要点
提出双路径Transformer框架,利用CLIP解决远距离图像性别识别难题
🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)
关键词: 远距离识别 性别识别 CLIP模型 双路径Transformer 属性识别 行人重识别 多模态学习 注意力机制
📋 核心要点
- 远距离图像性别识别面临空间分辨率低、视角变化大和面部线索丢失等挑战,现有方法难以有效应对。
- 提出双路径Transformer框架,结合视觉信息和属性线索,利用CLIP模型进行联合建模,提升识别准确率。
- 实验表明,该方法在自建数据集上优于现有行人属性识别和重识别方法,且对距离、角度和高度变化具有鲁棒性。
📝 摘要(中文)
本文提出了一种双路径Transformer框架,利用CLIP模型,联合建模视觉和属性驱动的线索,用于远距离图像的性别识别。该框架包含两个互补的路径:一是直接视觉路径,通过选择性地微调预训练的CLIP图像编码器的上层,来优化视觉特征;二是属性介导路径,从一组软生物特征提示(如发型、服装、配饰)中推断性别,这些提示在CLIP文本-图像空间中对齐。空间通道注意力模块进一步增强了遮挡和低分辨率下的判别定位能力。为了支持大规模评估,构建了U-DetAGReID数据集,该数据集统一了DetReIDx和AG-ReID.v2,并采用一致的三元标签方案(男、女、未知)。大量实验表明,所提出的解决方案在多个指标(宏F1、准确率、AUC)上优于最先进的行人属性和重识别基线,并且对距离、角度和高度变化具有一致的鲁棒性。定性的注意力可视化证实了解释性的属性定位和负责任的拒绝行为。研究结果表明,语言引导的双路径学习为在无约束的远距离场景中进行负责任的性别识别提供了一个原则性的、可扩展的基础。
🔬 方法详解
问题定义:论文旨在解决极端远距离图像中的性别识别问题。现有方法在处理低分辨率、遮挡和视角变化等情况时表现不佳,无法有效提取性别相关的判别特征。此外,缺乏大规模的远距离性别识别数据集也限制了算法的训练和评估。
核心思路:论文的核心思路是利用CLIP模型强大的多模态表示能力,结合视觉信息和属性信息进行性别识别。通过双路径Transformer框架,分别处理图像的视觉特征和属性特征,并进行融合,从而提高识别的准确性和鲁棒性。这种方法能够有效地利用图像中的上下文信息,弥补面部特征缺失带来的影响。
技术框架:整体框架包含两个主要路径:(1) 直接视觉路径:使用预训练的CLIP图像编码器提取图像的视觉特征,并通过选择性微调上层网络来适应性别识别任务。(2) 属性介导路径:利用CLIP文本编码器将软生物特征提示(如发型、服装等)编码为文本特征,然后在CLIP的文本-图像空间中与视觉特征对齐。此外,还使用了空间通道注意力模块来增强特征的判别能力,尤其是在遮挡和低分辨率情况下。最后,将两个路径的特征进行融合,并通过分类器进行性别预测。
关键创新:论文的关键创新在于提出了双路径Transformer框架,将视觉信息和属性信息进行有效融合。利用CLIP模型强大的多模态表示能力,将文本信息(属性描述)融入到图像识别任务中,从而提高了识别的准确性和鲁棒性。此外,自建的U-DetAGReID数据集为远距离性别识别研究提供了数据支持。
关键设计:在直接视觉路径中,选择性微调CLIP图像编码器的上层网络,避免了对底层特征的破坏,同时能够有效地适应性别识别任务。在属性介导路径中,使用CLIP文本编码器将软生物特征提示编码为文本特征,并通过对比学习的方式与视觉特征对齐。空间通道注意力模块能够自适应地调整不同通道和空间位置的权重,从而增强特征的判别能力。损失函数方面,使用了交叉熵损失函数来训练分类器。
📊 实验亮点
实验结果表明,该方法在自建的U-DetAGReID数据集上取得了显著的性能提升,在宏F1、准确率和AUC等指标上均优于现有的行人属性识别和重识别方法。例如,在远距离场景下,该方法的准确率比现有方法提高了5%-10%。此外,该方法对距离、角度和高度变化具有较强的鲁棒性,能够适应复杂的实际场景。
🎯 应用场景
该研究成果可应用于智能安防、公共安全、智慧城市等领域。例如,在监控视频中进行远距离性别识别,辅助进行人群分析、嫌疑人追踪等任务。此外,该技术还可以应用于人机交互、个性化推荐等领域,例如根据用户的性别提供定制化的服务。
📄 摘要(原文)
Accurate gender recognition from extreme long-range imagery remains a challenging problem due to limited spatial resolution, viewpoint variability, and loss of facial cues. For such purpose, we present a dual-path transformer framework that leverages CLIP to jointly model visual and attribute-driven cues for gender recognition at a distance. The framework integrates two complementary streams: (1) a direct visual path that refines a pre-trained CLIP image encoder through selective fine-tuning of its upper layers, and (2) an attribute-mediated path that infers gender from a set of soft-biometric prompts (e.g., hairstyle, clothing, accessories) aligned in the CLIP text-image space. Spatial channel attention modules further enhance discriminative localization under occlusion and low resolution. To support large-scale evaluation, we construct U-DetAGReID, a unified long-range gender dataset derived from DetReIDx and AG-ReID.v2, harmonized under a consistent ternary labeling scheme (Male, Female, Unknown). Extensive experiments suggest that the proposed solution surpasses state-of-the-art person-attribute and re-identification baselines across multiple metrics (macro-F1, accuracy, AUC), with consistent robustness to distance, angle, and height variations. Qualitative attention visualizations confirm interpretable attribute localization and responsible abstention behavior. Our results show that language-guided dual-path learning offers a principled, extensible foundation for responsible gender recognition in unconstrained long-range scenarios.