Exploring Vision-Language Models for Online Signature Verification: A Zero-Shot Capability Study
作者: Marta Robledo-Moreno, Ruben Vera-Rodriguez, Ruben Tolosana, Javier Ortega-Garcia
分类: cs.CV
发布日期: 2026-05-14
备注: Accepted at the 14th International Workshop on Biometrics and Forensics
💡 一句话要点
探索视觉-语言模型在在线签名验证中的零样本能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言模型 签名验证 零样本学习 生物特征识别 思维链推理
📋 核心要点
- 现有签名验证方法在泛化性和鲁棒性方面存在挑战,尤其是在零样本场景下。
- 将签名数据转换为图像,利用视觉-语言模型强大的视觉推理能力进行零样本签名验证。
- 实验表明,VLM在随机伪造场景下表现出色,但在熟练伪造场景下存在“合理化陷阱”。
📝 摘要(中文)
本文探索性地研究了最先进的视觉-语言模型(VLMs,GPT-5.2和Gemini 2.5 Pro)在签名验证挑战赛(SVC)基准上的零样本性能。为了实现视觉处理,原始的运动时间序列被转换为静态图像,并将压力信息编码到笔画的不透明度中(如果源数据可用)。此外,本文还提出了一种评分协议,该协议提取潜在的token概率来计算鲁棒的生物特征分数。实验结果表明,性能存在显著的二分性,取决于信号质量和伪造类型。在随机伪造场景中,零样本VLM实现了出色的区分度,GPT-5.2在移动任务中达到了0.32%的等错误率(EER),优于有监督的state-of-the-art系统。相反,在熟练伪造场景中,由于签名几乎相同,任务更具挑战性,结果明显更差,并且出现了一个关键的“合理化陷阱”:思维链(CoT)推理会降低性能,因为模型会产生运动学幻觉,以将伪造的artifact解释为自然的变异性。
🔬 方法详解
问题定义:本文旨在探索视觉-语言模型(VLMs)在在线签名验证任务中的零样本能力。现有签名验证方法通常依赖于大量的训练数据,并且在面对新的用户或设备时泛化能力较弱。此外,熟练的伪造签名与真实签名非常相似,使得区分变得更加困难。
核心思路:本文的核心思路是将在线签名数据转换为图像,然后利用VLMs强大的视觉推理能力进行签名验证。通过将签名数据转换为图像,可以利用VLMs预训练的知识,而无需针对特定签名数据集进行训练。此外,本文还提出了一种评分协议,该协议提取潜在的token概率来计算鲁棒的生物特征分数。
技术框架:整体流程如下:1) 将原始的运动时间序列转换为静态图像,并将压力信息编码到笔画的不透明度中。2) 将图像输入到VLM(GPT-5.2或Gemini 2.5 Pro)中。3) 提取VLM的潜在token概率。4) 使用评分协议计算生物特征分数。5) 根据生物特征分数判断签名是否为伪造。
关键创新:本文的关键创新在于将VLMs应用于在线签名验证任务,并探索了其零样本能力。此外,本文还发现了一个关键的“合理化陷阱”,即思维链(CoT)推理会降低性能,因为模型会产生运动学幻觉,以将伪造的artifact解释为自然的变异性。
关键设计:在数据转换方面,本文将压力信息编码到笔画的不透明度中,以便VLM能够更好地理解签名数据。在评分协议方面,本文提取了VLM的潜在token概率,并使用这些概率来计算生物特征分数。此外,本文还探索了思维链(CoT)推理对性能的影响。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在随机伪造场景中,GPT-5.2在移动任务中达到了0.32%的等错误率(EER),优于有监督的state-of-the-art系统。然而,在熟练伪造场景中,性能显著下降,并且思维链(CoT)推理会降低性能。该研究揭示了VLMs在签名验证任务中的优势和局限性。
🎯 应用场景
该研究成果可应用于身份认证、金融安全、电子签名等领域。通过利用视觉-语言模型的零样本能力,可以降低签名验证系统的部署成本,并提高其在不同场景下的适应性。未来的研究可以进一步探索如何克服“合理化陷阱”,提高VLM在熟练伪造场景下的性能。
📄 摘要(原文)
Recent advancements in Vision-Language Models (VLMs) have demonstrated strong capabilities in general visual reasoning, yet their applicability to rigorous biometric tasks remains unexplored. This work presents an exploratory study evaluating the zero-shot performance of state-of-the-art VLMs (GPT-5.2 and Gemini 2.5 Pro) on the Signature Verification Challenge (SVC) benchmark. To enable visual processing, raw kinematic time-series are converted into static images, encoding pressure information into stroke opacity whenever available in the source data. Furthermore, we introduce a scoring protocol that extracts latent token probabilities to compute robust biometric scores. Experimental results reveal a significant performance dichotomy dependent on signal quality and forgery type. In random forgery scenarios, the zero-shot VLM achieves exceptional discrimination, with GPT-5.2 reaching an Equal Error Rate of 0.32% in mobile tasks, outperforming supervised state-of-the-art systems. Conversely, in skilled forgery scenarios, where the task is more challenging because both signatures are almost identical, the results are significantly worse, and a critical "Rationalization Trap" emerges: chain-of-thought (CoT) reasoning degrades performance as the model produces kinematic hallucinations to justify forgery artifacts as natural variability.