Skeletonization-Based Adversarial Perturbations on Large Vision Language Model's Mathematical Text Recognition

📄 arXiv: 2601.04752v1 📥 PDF

作者: Masatomo Yoshida, Haruto Namura, Nicola Adami, Masahiro Okuda

分类: cs.CV

发布日期: 2026-01-08

备注: accepted to ITC-CSCC 2025

期刊: Proc. ITC-CSCC 2025

DOI: 10.1109/ITC-CSCC66376.2025.11137646


💡 一句话要点

提出基于骨骼化的对抗扰动方法,攻击大视觉语言模型的数学文本识别能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 对抗攻击 骨骼化 视觉语言模型 数学文本识别 ChatGPT 对抗样本 鲁棒性评估

📋 核心要点

  1. 现有方法在攻击视觉语言模型时,搜索空间大,效率低,尤其是在处理结构复杂的数学公式图像时。
  2. 论文提出基于骨骼化的对抗扰动方法,通过骨骼化减少搜索空间,从而更有效地生成对抗样本。
  3. 实验表明,该方法能够成功攻击ChatGPT等大型视觉语言模型,揭示了模型在数学文本识别方面的脆弱性。

📝 摘要(中文)

本文通过引入一种新颖的对抗攻击方法,利用骨骼化技术有效减少搜索空间,探索了基础模型的视觉能力和局限性。该方法专门针对包含文本的图像,特别是数学公式图像,由于其LaTeX转换和复杂的结构,这些图像更具挑战性。我们对原始输出和对抗扰动输出之间的字符和语义变化进行了详细评估,以深入了解模型的视觉解释和推理能力。通过将其应用于ChatGPT,进一步证明了该方法在实际场景中的有效性,并展示了其在现实世界中的实际意义。

🔬 方法详解

问题定义:论文旨在研究大型视觉语言模型在数学文本识别方面的鲁棒性。现有对抗攻击方法在处理包含复杂数学公式的图像时,由于搜索空间巨大,效率低下,难以生成有效的对抗样本。这使得评估和提高模型在此类任务中的可靠性变得困难。

核心思路:论文的核心思路是利用骨骼化技术来减少对抗扰动的搜索空间。骨骼化能够提取图像中字符或公式的关键结构信息,从而在对抗样本生成过程中,只需要对这些关键结构进行微小的修改,即可达到攻击目的。这种方法显著降低了计算复杂度,提高了攻击效率。

技术框架:该对抗攻击方法主要包含以下几个阶段:1) 输入数学公式图像;2) 对图像进行骨骼化处理,提取骨骼信息;3) 基于骨骼信息,生成对抗扰动;4) 将对抗扰动添加到原始图像中,得到对抗样本;5) 将对抗样本输入到目标视觉语言模型(如ChatGPT)中;6) 评估模型输出结果的变化,分析攻击效果。

关键创新:该方法最重要的创新点在于将骨骼化技术应用于对抗攻击,从而有效地减少了搜索空间,提高了攻击效率。与传统的像素级扰动方法相比,该方法更加关注图像的结构信息,能够生成更具针对性的对抗样本。

关键设计:论文中可能涉及的关键设计包括:1) 骨骼化算法的选择和参数设置;2) 对抗扰动的生成策略,例如,如何选择需要扰动的骨骼点,以及如何控制扰动的大小和方向;3) 评估指标的选择,例如,字符错误率、语义错误率等;4) 针对特定视觉语言模型的优化策略,例如,根据模型的特点调整扰动策略。

📊 实验亮点

论文通过实验验证了基于骨骼化的对抗扰动方法能够有效攻击ChatGPT等大型视觉语言模型。实验结果表明,该方法能够在较小的扰动下,显著降低模型的识别准确率,甚至导致模型产生错误的LaTeX转换结果。通过对比原始输出和对抗扰动输出之间的字符和语义变化,揭示了模型在数学文本识别方面的脆弱性。

🎯 应用场景

该研究成果可应用于评估和提高视觉语言模型在数学文本识别、OCR等领域的鲁棒性。通过对抗攻击,可以发现模型的潜在漏洞,并有针对性地进行防御。此外,该方法还可以用于生成更具挑战性的训练数据,从而提高模型的泛化能力。该研究对于开发更安全、可靠的视觉语言模型具有重要意义。

📄 摘要(原文)

This work explores the visual capabilities and limitations of foundation models by introducing a novel adversarial attack method utilizing skeletonization to reduce the search space effectively. Our approach specifically targets images containing text, particularly mathematical formula images, which are more challenging due to their LaTeX conversion and intricate structure. We conduct a detailed evaluation of both character and semantic changes between original and adversarially perturbed outputs to provide insights into the models' visual interpretation and reasoning abilities. The effectiveness of our method is further demonstrated through its application to ChatGPT, which shows its practical implications in real-world scenarios.