Skeletonization-Based Adversarial Perturbations on Large Vision Language Model's Mathematical Text Recognition

📄 arXiv: 2601.04752v1 📥 PDF

作者: Masatomo Yoshida, Haruto Namura, Nicola Adami, Masahiro Okuda

分类: cs.CV

发布日期: 2026-01-08

备注: accepted to ITC-CSCC 2025

期刊: Proc. ITC-CSCC 2025

DOI: 10.1109/ITC-CSCC66376.2025.11137646


💡 一句话要点

提出基于骨架化的对抗扰动方法,攻击大视觉语言模型的数学文本识别能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 对抗攻击 骨架化 视觉语言模型 数学文本识别 ChatGPT

📋 核心要点

  1. 现有方法在攻击视觉语言模型时,搜索空间大,效率低,尤其是在处理结构复杂的数学公式图像时。
  2. 论文提出基于骨架化的对抗扰动方法,通过骨架化减少搜索空间,提高对抗样本的生成效率。
  3. 实验表明,该方法能够有效地攻击ChatGPT等大型视觉语言模型,揭示了模型在数学文本识别方面的脆弱性。

📝 摘要(中文)

本研究通过引入一种新颖的对抗攻击方法,利用骨架化技术有效减少搜索空间,探索了基础模型的视觉能力和局限性。该方法专门针对包含文本的图像,特别是数学公式图像,由于其LaTeX转换和复杂的结构,这些图像更具挑战性。我们对原始输出和对抗扰动输出之间的字符和语义变化进行了详细评估,以深入了解模型的视觉解释和推理能力。通过将其应用于ChatGPT,进一步证明了该方法在实际场景中的有效性,并展示了其在现实世界中的实际意义。

🔬 方法详解

问题定义:论文旨在研究大型视觉语言模型(LVLM)在数学文本识别方面的鲁棒性。现有方法在生成对抗样本时,通常需要搜索巨大的像素空间,效率低下,尤其是在处理包含复杂数学公式的图像时,这种问题更加突出。这些公式的结构复杂,对微小的扰动非常敏感,导致模型容易出错。

核心思路:论文的核心思路是利用骨架化技术来减少对抗扰动的搜索空间。骨架化能够提取图像中字符或公式的关键结构信息,从而将扰动限制在这些关键区域,提高攻击效率。通过只修改骨架像素,可以在保持图像整体结构不变的情况下,更容易地诱导模型产生错误的识别结果。

技术框架:该对抗攻击方法主要包含以下几个阶段:1) 输入数学公式图像;2) 对图像进行骨架化处理,提取骨架像素;3) 在骨架像素上施加对抗扰动,生成对抗样本;4) 将对抗样本输入到目标LVLM(如ChatGPT)中;5) 评估模型输出的字符和语义变化,分析攻击效果。整个流程旨在通过最小的扰动,最大程度地改变模型的识别结果。

关键创新:该方法最重要的创新点在于将骨架化技术应用于对抗攻击,显著降低了搜索空间,提高了攻击效率。与传统的像素级扰动方法相比,该方法能够更有效地攻击结构复杂的数学公式图像,揭示了LVLM在处理此类图像时的脆弱性。此外,该方法还关注了对抗攻击对模型语义理解的影响,而不仅仅是字符识别的准确性。

关键设计:论文中可能涉及的关键设计包括:1) 骨架化算法的选择(例如,Zhang-Suen算法或其他细化算法);2) 对抗扰动的生成策略(例如,基于梯度的优化算法);3) 扰动幅度的控制(需要平衡攻击效果和图像质量);4) 损失函数的设计(用于指导对抗扰动的生成,例如,最大化模型输出错误类别的概率)。具体参数设置和网络结构细节未知。

📊 实验亮点

论文通过实验证明,基于骨架化的对抗扰动方法能够有效地攻击ChatGPT等大型视觉语言模型,使其在数学文本识别任务中产生错误的输出。实验结果表明,该方法能够在较小的扰动下,显著改变模型的字符和语义理解,揭示了模型在处理复杂结构图像时的脆弱性。具体的性能数据和提升幅度未知。

🎯 应用场景

该研究成果可应用于评估和提升视觉语言模型在处理复杂文本图像(如数学公式、化学结构式等)时的鲁棒性。通过对抗攻击,可以发现模型的弱点,并指导模型的改进,例如,通过对抗训练提高模型的抗攻击能力。此外,该方法还可以用于评估OCR系统的安全性,防止恶意用户通过对抗样本绕过安全机制。

📄 摘要(原文)

This work explores the visual capabilities and limitations of foundation models by introducing a novel adversarial attack method utilizing skeletonization to reduce the search space effectively. Our approach specifically targets images containing text, particularly mathematical formula images, which are more challenging due to their LaTeX conversion and intricate structure. We conduct a detailed evaluation of both character and semantic changes between original and adversarially perturbed outputs to provide insights into the models' visual interpretation and reasoning abilities. The effectiveness of our method is further demonstrated through its application to ChatGPT, which shows its practical implications in real-world scenarios.