The Visual Iconicity Challenge: Evaluating Vision-Language Models on Sign Language Form-Meaning Mapping

📄 arXiv: 2510.08482v2 📥 PDF

作者: Onur Keleş, Aslı Özyürek, Gerardo Ortega, Kadir Gökgöz, Esam Ghaleb

分类: cs.CV, cs.CL

发布日期: 2025-10-09 (更新: 2025-10-11)


💡 一句话要点

提出视觉标志性挑战,评估视觉-语言模型在手语形式-意义映射上的能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 手语理解 标志性 视觉基础 多模态学习

📋 核心要点

  1. 现有视觉-语言模型在理解动态手语的视觉基础和形式-意义映射方面存在挑战。
  2. 提出视觉标志性挑战,通过音系预测、透明度推断和标志性评级三个任务评估模型。
  3. 实验表明,现有模型在手语理解方面与人类水平存在差距,但音系预测能力强的模型在标志性判断上表现更好。

📝 摘要(中文)

本文提出了视觉标志性挑战,这是一个新的基于视频的基准,旨在评估视觉-语言模型(VLMs)在手语形式-意义映射上的能力。手语中普遍存在标志性,即语言形式和意义之间的相似性,这为视觉基础提供了一个天然的测试平台。该挑战改编了心理语言学方法,包含三个任务:(i)音系手语形式预测(例如,手形、位置),(ii)透明度(从视觉形式推断意义),以及(iii)分级标志性评级。在荷兰手语上,评估了13个最先进的VLMs在零样本和少样本设置下的性能,并将它们与人类基线进行比较。在音系形式预测方面,VLMs能够恢复一些手形和位置细节,但仍低于人类水平;在透明度方面,它们远低于人类基线;只有顶级模型与人类标志性评级有中等程度的相关性。有趣的是,音系形式预测能力更强的模型与人类标志性判断的相关性更好,表明它们对视觉基础结构具有共同的敏感性。研究结果验证了这些诊断任务,并激发了以人为中心的信号和具身学习方法,用于建模标志性并提高多模态模型中的视觉基础。

🔬 方法详解

问题定义:论文旨在评估视觉-语言模型(VLMs)理解手语中视觉标志性的能力,即手语形式(例如手势)与其含义之间的对应关系。现有VLMs主要关注静态图像的视觉基础,难以处理手语中动态的人体运动,并且缺乏针对手语形式-意义映射的专门评估基准。

核心思路:论文的核心思路是利用手语中普遍存在的标志性现象,构建一个能够诊断VLMs在手语理解方面能力的基准。通过设计三个任务,分别考察模型对音系形式的预测能力、从视觉形式推断意义的能力以及对标志性程度的判断能力。这种设计能够更全面地评估VLMs在手语理解方面的优势和不足。

技术框架:该研究提出了一个名为“视觉标志性挑战”的基准,包含以下三个主要任务: 1. 音系手语形式预测:给定手语视频,预测其音系特征,例如手形和位置。 2. 透明度:给定手语视频,判断其含义的透明度,即从视觉形式推断意义的难易程度。 3. 分级标志性评级:给定手语视频,评估其标志性程度,即视觉形式与意义的相似程度。 该基准使用荷兰手语数据集,并在零样本和少样本设置下评估了13个最先进的VLMs。

关键创新:该研究的关键创新在于: 1. 提出了一个专门针对手语视觉标志性的评估基准,填补了现有VLMs评估体系的空白。 2. 将心理语言学中的标志性概念引入到VLMs的评估中,为手语理解提供了一个新的视角。 3. 通过实验发现,音系形式预测能力强的模型在标志性判断方面表现更好,揭示了视觉基础结构在手语理解中的重要性。

关键设计:在实验设计方面,论文采用了以下关键设计: 1. 使用荷兰手语数据集,保证了数据的质量和多样性。 2. 采用零样本和少样本设置,考察了VLMs的泛化能力。 3. 将VLMs的性能与人类基线进行比较,评估了VLMs与人类水平的差距。 4. 采用Spearman相关系数等指标,评估了VLMs与人类标志性评级之间的相关性。

📊 实验亮点

实验结果表明,现有VLMs在手语理解方面与人类水平存在较大差距。在音系形式预测方面,VLMs能够恢复一些手形和位置细节,但仍低于人类水平。在透明度方面,VLMs远低于人类基线。只有顶级模型与人类标志性评级有中等程度的相关性。有趣的是,音系形式预测能力更强的模型与人类标志性判断的相关性更好。

🎯 应用场景

该研究成果可应用于手语翻译、手语教学、人机交互等领域。通过提高视觉-语言模型对手语的理解能力,可以开发更智能的手语翻译系统,帮助听障人士更好地融入社会。此外,该研究还可以促进具身学习方法的发展,提高机器人等智能体与人类进行自然交互的能力。

📄 摘要(原文)

Iconicity, the resemblance between linguistic form and meaning, is pervasive in signed languages, offering a natural testbed for visual grounding. For vision-language models (VLMs), the challenge is to recover such essential mappings from dynamic human motion rather than static context. We introduce the Visual Iconicity Challenge, a novel video-based benchmark that adapts psycholinguistic measures to evaluate VLMs on three tasks: (i) phonological sign-form prediction (e.g., handshape, location), (ii) transparency (inferring meaning from visual form), and (iii) graded iconicity ratings. We assess 13 state-of-the-art VLMs in zero- and few-shot settings on Sign Language of the Netherlands and compare them to human baselines. On phonological form prediction, VLMs recover some handshape and location detail but remain below human performance; on transparency, they are far from human baselines; and only top models correlate moderately with human iconicity ratings. Interestingly, models with stronger phonological form prediction correlate better with human iconicity judgment, indicating shared sensitivity to visually grounded structure. Our findings validate these diagnostic tasks and motivate human-centric signals and embodied learning methods for modelling iconicity and improving visual grounding in multimodal models.