Bi-Encoder Contrastive Learning for Fingerprint and Iris Biometrics

📄 arXiv: 2510.22937v1 📥 PDF

作者: Matthew So, Judah Goldfeder, Mark Lis, Hod Lipson

分类: cs.CV, cs.LG

发布日期: 2025-10-27

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于Bi-Encoder对比学习的指纹和虹膜跨模态生物特征识别方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 生物特征识别 对比学习 Bi-Encoder 指纹识别 虹膜识别

📋 核心要点

  1. 传统生物特征识别假设个体生物特征统计上不相关,该研究旨在检验这一假设。
  2. 采用Bi-Encoder架构,通过对比学习最小化同一受试者不同生物特征图像之间的距离,学习嵌入表示。
  3. 实验表明,同一个人左右虹膜具有相关性,指纹也存在受试者内相关性,跨模态匹配效果有待提升。

📝 摘要(中文)

本文研究了生物特征之间统计不相关的传统假设。通过在指纹-指纹匹配、虹膜-虹膜匹配以及跨模态指纹-虹膜匹配三个验证任务上训练Bi-Encoder网络,验证了这一假设。实验使用了274名受试者的约10万张指纹图像和7千张虹膜图像。使用ResNet-50和Vision Transformer作为Bi-Encoder架构的骨干网络,通过最小化来自同一受试者的图像之间的对比损失进行训练。虹膜ResNet架构在虹膜-虹膜匹配中达到了91%的ROC AUC分数,证明了个体左右虹膜之间存在相关性。指纹模型重现了先前研究中提出的积极的受试者内相关性。这是首次尝试使用Vision Transformer进行此类匹配。跨模态匹配仅略高于随机水平,表明需要更多数据和更复杂的流程才能获得令人信服的结果。这些发现继续挑战生物特征的独立性假设,未来计划将这项工作扩展到其他生物特征。

🔬 方法详解

问题定义:现有生物特征识别研究通常假设不同生物特征之间是相互独立的,这可能限制了多模态生物特征识别系统的性能。该研究旨在检验指纹和虹膜这两种生物特征之间是否存在统计相关性,并探索利用这种相关性来提升识别效果。现有方法未能充分挖掘跨模态生物特征之间的潜在联系。

核心思路:该研究的核心思路是利用Bi-Encoder架构和对比学习,将来自同一受试者的不同生物特征(指纹和虹膜)映射到嵌入空间的相近位置,从而学习到跨模态的共享表示。通过最小化正样本对(同一受试者的不同生物特征)之间的距离,同时最大化负样本对(不同受试者的不同生物特征)之间的距离,来训练模型。

技术框架:整体框架包括两个独立的编码器(Bi-Encoder),分别用于提取指纹和虹膜图像的特征。编码器可以是ResNet-50或Vision Transformer。训练阶段,输入一对图像(可以是同模态或跨模态),通过各自的编码器提取特征向量,然后计算对比损失。损失函数促使来自同一受试者的图像的嵌入向量更接近,而来自不同受试者的图像的嵌入向量更远离。验证阶段,计算两个图像嵌入向量之间的相似度,并根据相似度判断是否属于同一人。

关键创新:该研究的关键创新在于首次尝试使用Vision Transformer作为Bi-Encoder架构的骨干网络进行指纹和虹膜的跨模态匹配。此外,该研究也验证了生物特征之间可能存在相关性,挑战了传统的独立性假设。

关键设计:研究中使用了对比损失函数来训练Bi-Encoder网络。对比损失函数的设计旨在最小化来自同一受试者的图像嵌入之间的距离,同时最大化来自不同受试者的图像嵌入之间的距离。研究中使用了ResNet-50和Vision Transformer两种不同的骨干网络,并比较了它们在不同匹配任务上的性能。数据集包含274名受试者的约10万张指纹图像和7千张虹膜图像。

📊 实验亮点

虹膜ResNet架构在虹膜-虹膜匹配中达到了91%的ROC AUC分数,表明个体左右虹膜之间存在显著相关性。指纹模型重现了先前研究中发现的受试者内相关性。首次尝试使用Vision Transformer进行指纹和虹膜的匹配,为未来的研究提供了新的思路。跨模态匹配结果略高于随机水平,提示需要更多数据和更复杂的模型。

🎯 应用场景

该研究成果可应用于多模态生物特征识别系统,例如身份验证、安全访问控制等。通过挖掘不同生物特征之间的相关性,可以提高识别准确率和鲁棒性。未来的研究可以探索更多生物特征之间的关联,并开发更先进的跨模态融合算法,从而构建更安全可靠的生物特征识别系统。

📄 摘要(原文)

There has been a historic assumption that the biometrics of an individual are statistically uncorrelated. We test this assumption by training Bi-Encoder networks on three verification tasks, including fingerprint-to-fingerprint matching, iris-to-iris matching, and cross-modal fingerprint-to-iris matching using 274 subjects with $\sim$100k fingerprints and 7k iris images. We trained ResNet-50 and Vision Transformer backbones in Bi-Encoder architectures such that the contrastive loss between images sampled from the same individual is minimized. The iris ResNet architecture reaches 91 ROC AUC score for iris-to-iris matching, providing clear evidence that the left and right irises of an individual are correlated. Fingerprint models reproduce the positive intra-subject suggested by prior work in this space. This is the first work attempting to use Vision Transformers for this matching. Cross-modal matching rises only slightly above chance, which suggests that more data and a more sophisticated pipeline is needed to obtain compelling results. These findings continue challenge independence assumptions of biometrics and we plan to extend this work to other biometrics in the future. Code available: https://github.com/MatthewSo/bio_fingerprints_iris.