DisenQ: Disentangling Q-Former for Activity-Biometrics

📄 arXiv: 2507.07262v1 📥 PDF

作者: Shehreen Azad, Yogesh S Rawat

分类: cs.CV

发布日期: 2025-07-09

备注: Accepted in ICCV 2025


💡 一句话要点

提出DisenQ,通过解耦Q-Former实现活动生物特征识别

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 活动生物特征识别 解耦学习 Q-Former 多模态融合 语言引导 视频识别

📋 核心要点

  1. 活动生物特征识别面临身份特征与运动、外观变化交织的难题,传统方法依赖的额外视觉数据(如姿态)提取精度有限。
  2. DisenQ通过结构化语言引导,解耦生物特征、运动和非生物特征,确保身份线索不受外观和运动变化的影响。
  3. 实验在多个活动视频数据集上取得SOTA性能,并在传统视频识别任务上表现出良好的泛化能力。

📝 摘要(中文)

本文提出了一种活动生物特征识别方法,旨在解决在不同活动中识别个体的问题。与传统的人员识别不同,活动生物特征识别面临身份线索与运动动态和外观变化纠缠的挑战,使得生物特征学习更加复杂。为了克服这一问题,我们提出了一个多模态语言引导框架,利用结构化的文本监督来替代对额外视觉数据的依赖。该框架的核心是DisenQ(解耦Q-Former),一个统一的查询Transformer,通过利用结构化的语言指导来解耦生物特征、运动和非生物特征。这确保了身份线索独立于外观和运动变化,防止了错误识别。我们在三个基于活动的视频基准上评估了我们的方法,取得了最先进的性能。此外,我们还在传统的基于视频的识别基准上展示了强大的泛化能力,证明了我们框架的有效性。

🔬 方法详解

问题定义:活动生物特征识别旨在跨不同活动识别个体。现有方法的痛点在于身份特征与运动动态和外观变化相互纠缠,使得学习鲁棒的生物特征表示变得困难。此外,依赖额外的视觉数据(例如姿态或轮廓)进行特征提取容易受到提取误差的影响,进一步降低识别准确率。

核心思路:本文的核心思路是利用结构化的语言指导来解耦生物特征、运动和非生物特征。通过引入语言信息,模型可以学习到与身份相关的、独立于运动和外观变化的特征表示。这种解耦的思想有助于提高模型在不同活动下的泛化能力和识别准确率。

技术框架:整体框架是一个多模态语言引导的活动生物特征识别系统。它主要包含以下模块:1) 视频特征提取模块,用于提取视频帧的视觉特征;2) 文本编码模块,用于编码结构化的语言描述;3) DisenQ模块,即解耦Q-Former,用于融合视觉特征和语言信息,并解耦生物特征、运动和非生物特征;4) 分类器,用于基于解耦后的生物特征进行个体识别。

关键创新:最重要的技术创新点在于DisenQ模块,它是一个统一的查询Transformer,能够通过结构化的语言指导来解耦不同的特征。与现有方法相比,DisenQ不需要依赖额外的视觉数据,而是直接利用语言信息来指导特征解耦,从而避免了提取误差带来的影响。此外,DisenQ采用Q-Former架构,能够有效地融合视觉特征和语言信息。

关键设计:DisenQ模块的关键设计包括:1) 使用结构化的语言描述作为输入,例如“该人正在跑步”;2) 设计特定的查询向量,用于查询与生物特征、运动和非生物特征相关的信息;3) 使用对比学习损失函数,鼓励模型学习到解耦的特征表示;4) 采用多层Transformer结构,增强模型的表达能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DisenQ在三个活动视频数据集上取得了state-of-the-art的性能。例如,在XXX数据集上,识别准确率相比于基线方法提升了X%。此外,该方法在传统视频识别任务上也表现出良好的泛化能力,证明了其有效性。

🎯 应用场景

该研究成果可应用于智能安防、视频监控、行为分析等领域。例如,在机场或车站等公共场所,可以通过分析个体的活动视频来识别身份,提高安全性和效率。此外,该技术还可以用于运动分析、医疗诊断等领域,具有广泛的应用前景。

📄 摘要(原文)

In this work, we address activity-biometrics, which involves identifying individuals across diverse set of activities. Unlike traditional person identification, this setting introduces additional challenges as identity cues become entangled with motion dynamics and appearance variations, making biometrics feature learning more complex. While additional visual data like pose and/or silhouette help, they often struggle from extraction inaccuracies. To overcome this, we propose a multimodal language-guided framework that replaces reliance on additional visual data with structured textual supervision. At its core, we introduce \textbf{DisenQ} (\textbf{Disen}tangling \textbf{Q}-Former), a unified querying transformer that disentangles biometrics, motion, and non-biometrics features by leveraging structured language guidance. This ensures identity cues remain independent of appearance and motion variations, preventing misidentifications. We evaluate our approach on three activity-based video benchmarks, achieving state-of-the-art performance. Additionally, we demonstrate strong generalization to complex real-world scenario with competitive performance on a traditional video-based identification benchmark, showing the effectiveness of our framework.