A Quality-Guided Mixture of Score-Fusion Experts Framework for Human Recognition
作者: Jie Zhu, Yiyang Su, Minchul Kim, Anil Jain, Xiaoming Liu
分类: cs.CV
发布日期: 2025-07-31
备注: Accepted to ICCV 2025. 11 pages, 5 figures
💡 一句话要点
提出质量引导的混合专家模型(QME),用于提升全身生物特征识别性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 全身生物特征识别 多模态融合 混合专家模型 质量估计 分数融合
📋 核心要点
- 现有全身生物特征识别方法忽略了不同模态分数分布的差异,导致融合效果不佳。
- QME框架通过可学习的分数融合策略,利用混合专家模型(MoE)提升识别性能。
- 实验表明,QME在多个数据集上取得了SOTA结果,有效应对了模型未对准和数据质量变化等挑战。
📝 摘要(中文)
全身生物特征识别是一项具有挑战性的多模态任务,它整合了人脸、步态和身体等多种生物特征模态。这种整合对于克服单模态系统的局限性至关重要。传统上,全身识别涉及部署不同的模型来处理多个模态,并通过分数融合(例如,每个模型的相似性矩阵的加权平均)来实现最终结果。然而,这些传统方法可能会忽略各个模态分数分布的差异,从而难以提高最终性能。本文提出了一种新颖的质量引导的混合专家模型(QME)框架,旨在通过使用混合专家(MoE)的可学习分数融合策略来提高全身生物特征识别性能。我们为质量估计引入了一种新颖的伪质量损失以及一个模态特定的质量估计器(QE),并引入了分数三元组损失以提高度量性能。在多个全身生物特征数据集上的大量实验表明,我们提出的方法是有效的,与基线方法相比,在各种指标上实现了最先进的结果。我们的方法对于多模态和多模型有效,解决了相似性分数域中的模型未对准和数据质量可变性等关键挑战。
🔬 方法详解
问题定义:全身生物特征识别旨在融合人脸、步态、身体等多种模态的信息,以克服单模态识别的局限性。然而,现有方法通常采用简单的分数融合策略(如加权平均),忽略了不同模态分数分布的差异,导致融合后的识别性能提升有限。此外,不同模态的数据质量存在差异,简单的融合策略无法有效利用高质量数据,并抑制低质量数据的影响。
核心思路:QME的核心思路是利用混合专家模型(MoE)学习一个自适应的分数融合策略,该策略能够根据不同模态的质量动态调整融合权重。通过引入质量估计器(QE)来评估每个模态的质量,并将其作为MoE的输入,从而使MoE能够根据模态质量进行更有效的融合。
技术框架:QME框架包含以下几个主要模块:1) 模态特征提取器:用于提取人脸、步态、身体等不同模态的特征。2) 相似度计算模块:计算每个模态的相似度矩阵。3) 质量估计器(QE):用于估计每个模态的质量得分。4) 混合专家模型(MoE):根据模态相似度矩阵和质量得分,学习自适应的分数融合权重,并输出最终的识别结果。整体流程是,首先对每个模态提取特征并计算相似度,然后使用QE估计模态质量,最后将相似度矩阵和质量得分输入MoE进行融合。
关键创新:QME的关键创新在于引入了质量引导的混合专家模型(MoE),用于学习自适应的分数融合策略。与传统方法相比,QME能够根据不同模态的质量动态调整融合权重,从而更有效地利用高质量数据,并抑制低质量数据的影响。此外,QME还引入了伪质量损失和分数三元组损失,进一步提升了质量估计的准确性和度量学习的性能。
关键设计:1) 伪质量损失:用于训练质量估计器(QE),通过最小化预测质量与真实标签之间的差异来提高质量估计的准确性。2) 分数三元组损失:用于优化相似度矩阵的度量学习,使得相同身份的样本之间的距离更近,不同身份的样本之间的距离更远。3) 混合专家模型(MoE):采用门控网络(Gating Network)来学习不同专家的权重,门控网络的输入包括模态相似度矩阵和质量得分。4) 模态特定的质量估计器(QE):每个模态都有一个独立的QE,用于估计该模态的质量得分。
🖼️ 关键图片
📊 实验亮点
实验结果表明,QME在多个全身生物特征数据集上取得了SOTA结果。例如,在XXX数据集上,QME的识别准确率比基线方法提高了X%。此外,实验还验证了QME对于模型未对准和数据质量变化等挑战的鲁棒性,表明QME具有很强的实用价值。
🎯 应用场景
QME框架可应用于各种全身生物特征识别场景,例如智能安防、门禁系统、身份验证等。该方法能够有效融合多种生物特征模态的信息,提高识别的准确性和鲁棒性。未来,QME还可以扩展到其他多模态识别任务中,例如音视频识别、文本图像识别等,具有广阔的应用前景。
📄 摘要(原文)
Whole-body biometric recognition is a challenging multimodal task that integrates various biometric modalities, including face, gait, and body. This integration is essential for overcoming the limitations of unimodal systems. Traditionally, whole-body recognition involves deploying different models to process multiple modalities, achieving the final outcome by score-fusion (e.g., weighted averaging of similarity matrices from each model). However, these conventional methods may overlook the variations in score distributions of individual modalities, making it challenging to improve final performance. In this work, we present \textbf{Q}uality-guided \textbf{M}ixture of score-fusion \textbf{E}xperts (QME), a novel framework designed for improving whole-body biometric recognition performance through a learnable score-fusion strategy using a Mixture of Experts (MoE). We introduce a novel pseudo-quality loss for quality estimation with a modality-specific Quality Estimator (QE), and a score triplet loss to improve the metric performance. Extensive experiments on multiple whole-body biometric datasets demonstrate the effectiveness of our proposed approach, achieving state-of-the-art results across various metrics compared to baseline methods. Our method is effective for multimodal and multi-model, addressing key challenges such as model misalignment in the similarity score domain and variability in data quality.