SMSP: A Plug-and-Play Strategy of Multi-Scale Perception for MLLMs to Perceive Visual Illusions

📄 arXiv: 2603.23118v1 📥 PDF

作者: Jinzhe Tu, Ruilei Guo, Zihan Guo, Junxiao Yang, Shiyao Cui, Minlie Huang

分类: cs.CV, cs.MM

发布日期: 2026-03-24

🔗 代码/项目: GITHUB


💡 一句话要点

提出SMSP多尺度感知策略,提升MLLM对视觉错觉的识别能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 视觉错觉 多尺度感知 高频注意力偏好 图像识别 鲁棒性 IlluChar数据集

📋 核心要点

  1. 现有MLLM易受视觉错觉中高频背景干扰,无法有效识别隐藏模式,导致感知与人类存在偏差。
  2. SMSP策略通过抑制高频背景,模拟人类视觉感知,使模型关注图像中的关键隐藏信息。
  3. 实验表明,SMSP能显著提升MLLM在视觉错觉识别任务上的准确率,具有良好的即插即用性。

📝 摘要(中文)

本文揭示了多模态大型语言模型(MLLM)在识别隐藏模式的视觉错觉方面存在严重缺陷,这种缺陷源于模型对高频背景纹理的注意力偏好,导致其忽略了隐藏的内容。为了系统性地研究这个问题,作者构建了一个名为IlluChar的综合性错觉数据集。针对MLLM的这一问题,作者提出了一种即插即用的多尺度感知策略(SMSP),该策略通过抑制高频背景干扰,生成更符合人类感知的图像。实验结果表明,SMSP显著提高了现有MLLM在错觉图像上的性能,例如,Qwen3-VL-8B-Instruct的准确率从13.0%提升至84.0%。该研究为MLLM的视觉感知提供了新的见解,并提供了一种实用且鲁棒的解决方案。

🔬 方法详解

问题定义:MLLM在处理包含视觉错觉的图像时,容易被高频噪声干扰,无法准确识别图像中隐藏的、对人类而言显而易见的内容。现有方法缺乏对这种高频注意力偏好的有效抑制,导致模型性能不佳。

核心思路:该论文的核心思路是模拟人类的视觉感知机制,通过多尺度分析来抑制图像中的高频噪声,从而使模型能够更加关注图像中重要的低频信息,即隐藏的视觉模式。SMSP旨在使模型能够像人类一样,从不同尺度观察图像,从而减少高频噪声的干扰。

技术框架:SMSP是一个即插即用的框架,可以添加到现有的MLLM中。其主要流程包括:首先,对输入图像进行多尺度分解,例如使用高斯金字塔或小波变换。然后,对不同尺度的图像进行处理,以抑制高频成分。最后,将处理后的多尺度图像输入到MLLM中进行分析和推理。

关键创新:该论文的关键创新在于提出了SMSP多尺度感知策略,该策略能够有效地抑制MLLM对高频噪声的注意力偏好,从而提高其在视觉错觉识别任务中的性能。与现有方法相比,SMSP更加关注模拟人类的视觉感知机制,并且具有良好的即插即用性。

关键设计:SMSP的具体实现可以采用多种方式,例如使用高斯模糊来平滑图像,或者使用小波变换来提取低频成分。关键参数包括多尺度分解的尺度数量、高斯模糊的kernel size等。损失函数方面,可以使用交叉熵损失函数来训练模型,使其能够更加准确地识别图像中的隐藏模式。网络结构方面,SMSP可以与现有的MLLM无缝集成,无需修改MLLM的结构。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SMSP策略能够显著提升MLLM在视觉错觉图像上的识别准确率。例如,在IlluChar数据集上,Qwen3-VL-8B-Instruct模型的准确率从13.0%提升至84.0%。此外,SMSP策略具有良好的泛化能力,能够提升多种不同架构的MLLM的性能。

🎯 应用场景

该研究成果可应用于提升MLLM在安全场景下的鲁棒性,例如在自动驾驶中识别伪装的交通标志,或在医疗图像分析中检测细微病灶。此外,该方法还可用于提高图像识别系统的抗干扰能力,使其在复杂环境下也能准确识别目标。

📄 摘要(原文)

Recent works have shown that Multimodal Large Language Models (MLLMs) are highly vulnerable to hidden-pattern visual illusions, where the hidden content is imperceptible to models but obvious to humans. This deficiency highlights a perceptual misalignment between current MLLMs and humans, and also introduces potential safety concerns. To systematically investigate this failure, we introduce IlluChar, a comprehensive and challenging illusion dataset, and uncover a key underlying mechanism for the models' failure: high-frequency attention bias, where the models are easily distracted by high-frequency background textures in illusion images, causing them to overlook hidden patterns. To address the issue, we propose the Strategy of Multi-Scale Perception (SMSP), a plug-and-play framework that aligns with human visual perceptual strategies. By suppressing distracting high-frequency backgrounds, SMSP generates images closer to human perception. Our experiments demonstrate that SMSP significantly improves the performance of all evaluated MLLMs on illusion images, for instance, increasing the accuracy of Qwen3-VL-8B-Instruct from 13.0% to 84.0%. Our work provides novel insights into MLLMs' visual perception, and offers a practical and robust solution to enhance it. Our code is publicly available at https://github.com/Tujz2023/SMSP.