Visible Yet Unreadable: A Systematic Blind Spot of Vision Language Models Across Writing Systems

📄 arXiv: 2509.06996v5 📥 PDF

作者: Jie Zhang, Ting Xu, Gelei Deng, Runyi Hu, Han Qiu, Tianwei Zhang, Qing Guo, Ivor Tsang

分类: cs.CV, cs.AI

发布日期: 2025-09-04 (更新: 2025-12-01)

备注: arXiv admin note: This article has been withdrawn by arXiv administrators due to violation of arXiv policy regarding generative AI authorship


💡 一句话要点

揭示视觉语言模型在跨书写系统中的盲点:对可见但不可读文本的脆弱性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 鲁棒性 文本识别 跨书写系统 对抗样本

📋 核心要点

  1. 现有视觉语言模型在处理受扰动的文本(如字符分割、融合等)时表现出明显的性能下降,无法像人类一样保持较强的识别能力。
  2. 论文通过构建包含汉字和英文的“可见但不可读”数据集,系统性地评估了现有视觉语言模型在处理此类文本时的鲁棒性。
  3. 实验结果表明,现有模型过度依赖视觉不变性,而缺乏对字符组合规则的理解,这限制了它们在复杂文本场景下的应用。

📝 摘要(中文)

书写是一种通用的文化技术,它重复利用视觉进行符号交流。人类表现出惊人的适应能力:即使字符被分割、融合或部分遮挡,我们也能轻松识别单词。本文研究了先进的视觉语言模型(VLMs)是否也具有这种适应能力。我们构建了两个受心理物理学启发的基准,涵盖不同的书写系统,即汉字和英语字母单词,通过拼接、重组和叠加字形,为模型生成“可见但不可读”的刺激,而这些刺激对人类来说仍然是可读的。尽管在干净的文本上表现出色,但当前的VLMs在这些扰动下表现出严重的下降,经常产生不相关或不连贯的输出。这种模式表明了一种结构性限制:模型过度依赖通用的视觉不变性,而对鲁棒读写能力所需的组合先验依赖不足。我们发布了刺激生成代码、提示和评估协议,以方便透明的复制和后续工作。我们的发现激发了跨脚本编码符号分割、组合和绑定的架构和训练策略,并为在教育、可访问性、文化遗产和安全领域部署多模态系统提出了具体的挑战。

🔬 方法详解

问题定义:论文旨在解决视觉语言模型(VLMs)在处理“可见但不可读”文本时的鲁棒性问题。现有VLMs在干净的文本上表现良好,但在字符被分割、融合或遮挡等情况下,性能会显著下降。这表明现有模型缺乏像人类一样的容错能力,无法有效利用字符的组合信息进行识别。

核心思路:论文的核心思路是通过构建专门设计的、包含受扰动文本的基准数据集,来系统性地评估VLMs的鲁棒性。这些数据集中的文本对人类来说是可读的,但对模型来说具有挑战性,从而揭示模型在处理复杂视觉信息方面的不足。通过分析模型的错误模式,可以深入了解模型的设计缺陷,并为未来的改进提供指导。

技术框架:论文构建了两个基准数据集,分别针对汉字和英文。数据集的构建过程包括:1) 选择常用的汉字和英文单词;2) 对字形进行拼接、重组和叠加等操作,生成“可见但不可读”的刺激;3) 设计合适的提示语,引导模型进行文本识别。然后,使用这些数据集评估现有的VLMs,并分析模型的输出结果。

关键创新:论文的关键创新在于:1) 提出了“可见但不可读”的概念,并将其作为评估VLMs鲁棒性的一个重要指标;2) 构建了两个跨书写系统的基准数据集,为研究人员提供了一个统一的评估平台;3) 揭示了现有VLMs在处理受扰动文本时的结构性限制,即过度依赖视觉不变性,而缺乏对字符组合规则的理解。

关键设计:论文在构建数据集时,采用了多种字形扰动方法,包括:1) 字符分割:将字符分割成多个部分,并随机排列;2) 字符融合:将多个字符融合在一起,形成新的字形;3) 字符叠加:将多个字符叠加在一起,使字符难以辨认。此外,论文还设计了不同的提示语,以控制模型的输出格式和内容。例如,对于汉字识别任务,提示语可以要求模型输出单个汉字或完整的词语。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有的VLMs在“可见但不可读”的文本上表现出显著的性能下降。例如,在汉字数据集上,模型的准确率从干净文本的90%以上下降到受扰动文本的30%以下。在英文数据集上,也观察到了类似的现象。这些结果表明,现有模型在处理复杂视觉信息方面存在明显的不足,需要进一步改进。

🎯 应用场景

该研究成果可应用于提升多模态系统在教育、可访问性、文化遗产和安全等领域的性能。例如,在教育领域,可以帮助开发更智能的阅读辅助工具,提高学生的阅读理解能力。在可访问性领域,可以帮助视障人士更好地理解图像中的文本信息。在文化遗产领域,可以用于识别和修复古籍中的残缺文字。在安全领域,可以用于检测和识别伪造的文本信息。

📄 摘要(原文)

Writing is a universal cultural technology that reuses vision for symbolic communication. Humans display striking resilience: we readily recognize words even when characters are fragmented, fused, or partially occluded. This paper investigates whether advanced vision language models (VLMs) share this resilience. We construct two psychophysics inspired benchmarks across distinct writing systems, Chinese logographs and English alphabetic words, by splicing, recombining, and overlaying glyphs to yield ''visible but unreadable'' stimuli for models while remaining legible to humans. Despite strong performance on clean text, contemporary VLMs show a severe drop under these perturbations, frequently producing unrelated or incoherent outputs. The pattern suggests a structural limitation: models heavily leverage generic visual invariances but under rely on compositional priors needed for robust literacy. We release stimuli generation code, prompts, and evaluation protocols to facilitate transparent replication and follow up work. Our findings motivate architectures and training strategies that encode symbol segmentation, composition, and binding across scripts, and they delineate concrete challenges for deploying multimodal systems in education, accessibility, cultural heritage, and security.