Exploring Vision-Language Models for Online Signature Verification: A Zero-Shot Capability Study

作者: Marta Robledo-Moreno, Ruben Vera-Rodriguez, Ruben Tolosana, Javier Ortega-Garcia

分类: cs.CV

发布日期: 2026-05-14

备注: Accepted at the 14th International Workshop on Biometrics and Forensics

💡 一句话要点

探索视觉-语言模型在在线签名验证中的零样本能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 签名验证 零样本学习 生物特征识别 思维链推理

📋 核心要点

现有签名验证方法在泛化性和鲁棒性方面存在挑战，尤其是在零样本场景下。
将签名数据转换为图像，利用视觉-语言模型强大的视觉推理能力进行零样本签名验证。
实验表明，VLM在随机伪造场景下表现出色，但在熟练伪造场景下存在“合理化陷阱”。

📝 摘要（中文）

本文探索性地研究了最先进的视觉-语言模型（VLMs，GPT-5.2和Gemini 2.5 Pro）在签名验证挑战赛（SVC）基准上的零样本性能。为了实现视觉处理，原始的运动时间序列被转换为静态图像，并将压力信息编码到笔画的不透明度中（如果源数据可用）。此外，本文还提出了一种评分协议，该协议提取潜在的token概率来计算鲁棒的生物特征分数。实验结果表明，性能存在显著的二分性，取决于信号质量和伪造类型。在随机伪造场景中，零样本VLM实现了出色的区分度，GPT-5.2在移动任务中达到了0.32%的等错误率（EER），优于有监督的state-of-the-art系统。相反，在熟练伪造场景中，由于签名几乎相同，任务更具挑战性，结果明显更差，并且出现了一个关键的“合理化陷阱”：思维链（CoT）推理会降低性能，因为模型会产生运动学幻觉，以将伪造的artifact解释为自然的变异性。

🔬 方法详解

问题定义：本文旨在探索视觉-语言模型（VLMs）在在线签名验证任务中的零样本能力。现有签名验证方法通常依赖于大量的训练数据，并且在面对新的用户或设备时泛化能力较弱。此外，熟练的伪造签名与真实签名非常相似，使得区分变得更加困难。

核心思路：本文的核心思路是将在线签名数据转换为图像，然后利用VLMs强大的视觉推理能力进行签名验证。通过将签名数据转换为图像，可以利用VLMs预训练的知识，而无需针对特定签名数据集进行训练。此外，本文还提出了一种评分协议，该协议提取潜在的token概率来计算鲁棒的生物特征分数。

技术框架：整体流程如下：1) 将原始的运动时间序列转换为静态图像，并将压力信息编码到笔画的不透明度中。2) 将图像输入到VLM（GPT-5.2或Gemini 2.5 Pro）中。3) 提取VLM的潜在token概率。4) 使用评分协议计算生物特征分数。5) 根据生物特征分数判断签名是否为伪造。

关键创新：本文的关键创新在于将VLMs应用于在线签名验证任务，并探索了其零样本能力。此外，本文还发现了一个关键的“合理化陷阱”，即思维链（CoT）推理会降低性能，因为模型会产生运动学幻觉，以将伪造的artifact解释为自然的变异性。

关键设计：在数据转换方面，本文将压力信息编码到笔画的不透明度中，以便VLM能够更好地理解签名数据。在评分协议方面，本文提取了VLM的潜在token概率，并使用这些概率来计算生物特征分数。此外，本文还探索了思维链（CoT）推理对性能的影响。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在随机伪造场景中，GPT-5.2在移动任务中达到了0.32%的等错误率（EER），优于有监督的state-of-the-art系统。然而，在熟练伪造场景中，性能显著下降，并且思维链（CoT）推理会降低性能。该研究揭示了VLMs在签名验证任务中的优势和局限性。

🎯 应用场景

该研究成果可应用于身份认证、金融安全、电子签名等领域。通过利用视觉-语言模型的零样本能力，可以降低签名验证系统的部署成本，并提高其在不同场景下的适应性。未来的研究可以进一步探索如何克服“合理化陷阱”，提高VLM在熟练伪造场景下的性能。

📄 摘要（原文）

Recent advancements in Vision-Language Models (VLMs) have demonstrated strong capabilities in general visual reasoning, yet their applicability to rigorous biometric tasks remains unexplored. This work presents an exploratory study evaluating the zero-shot performance of state-of-the-art VLMs (GPT-5.2 and Gemini 2.5 Pro) on the Signature Verification Challenge (SVC) benchmark. To enable visual processing, raw kinematic time-series are converted into static images, encoding pressure information into stroke opacity whenever available in the source data. Furthermore, we introduce a scoring protocol that extracts latent token probabilities to compute robust biometric scores. Experimental results reveal a significant performance dichotomy dependent on signal quality and forgery type. In random forgery scenarios, the zero-shot VLM achieves exceptional discrimination, with GPT-5.2 reaching an Equal Error Rate of 0.32% in mobile tasks, outperforming supervised state-of-the-art systems. Conversely, in skilled forgery scenarios, where the task is more challenging because both signatures are almost identical, the results are significantly worse, and a critical "Rationalization Trap" emerges: chain-of-thought (CoT) reasoning degrades performance as the model produces kinematic hallucinations to justify forgery artifacts as natural variability.

Exploring Vision-Language Models for Online Signature Verification: A Zero-Shot Capability Study

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理