OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models

📄 arXiv: 2603.09326v1 📥 PDF

作者: Tengjin Weng, Wenhao Jiang, Jingyi Wang, Ming Li, Lin Ma, Zhong Ming

分类: cs.CV

发布日期: 2026-03-10

备注: accepted by CVPR 2026

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

OddGridBench揭示多模态大模型在细粒度视觉差异感知上的不足

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 视觉差异感知 细粒度视觉 基准测试 强化学习 课程学习 距离感知奖励 视觉语言任务

📋 核心要点

  1. 现有MLLM在视觉语言任务中表现出色,但在细粒度视觉差异感知方面存在不足,缺乏系统性评估。
  2. 提出OddGridBench基准测试MLLM的视觉差异敏感性,并设计OddGrid-GRPO强化学习框架提升模型能力。
  3. 实验表明现有MLLM在OddGridBench上表现远低于人类水平,OddGrid-GRPO能有效提升细粒度视觉辨别能力。

📝 摘要(中文)

多模态大型语言模型(MLLM)在各种视觉语言任务中取得了显著的性能。然而,它们在低级视觉感知方面的能力,特别是在检测细粒度视觉差异方面的能力,仍未得到充分探索,并且缺乏系统的分析。本文提出了OddGridBench,这是一个可控的基准,用于评估MLLM的视觉差异敏感性。OddGridBench包含超过1400个基于网格的图像,其中单个元素在颜色、大小、旋转或位置等一个或多个视觉属性上与其他元素不同。实验表明,包括Qwen3-VL和InternVL3.5等开源模型以及Gemini-2.5-Pro和GPT-5等专有系统在内的所有评估的MLLM在视觉差异检测方面的表现都远低于人类水平。我们进一步提出了OddGrid-GRPO,一个强化学习框架,它集成了课程学习和距离感知奖励。通过逐步控制训练样本的难度并将空间邻近约束纳入奖励设计,OddGrid-GRPO显著提高了模型的细粒度视觉辨别能力。我们希望OddGridBench和OddGrid-GRPO将为推进多模态智能中的感知基础和视觉差异敏感性奠定基础。

🔬 方法详解

问题定义:论文旨在解决多模态大语言模型(MLLM)在细粒度视觉差异感知能力上的不足。现有方法缺乏对MLLM在低级视觉感知能力,特别是检测细微视觉差异方面的系统性评估和提升。现有模型难以准确区分网格图像中与其他元素存在细微差异的元素,这限制了它们在需要高精度视觉感知的任务中的应用。

核心思路:论文的核心思路是通过构建一个可控的基准测试集(OddGridBench)来评估现有MLLM的视觉差异敏感性,并利用强化学习框架(OddGrid-GRPO)来提升模型在该方面的能力。OddGrid-GRPO通过课程学习和距离感知奖励,逐步引导模型学习细粒度的视觉差异。

技术框架:整体框架包含两个主要部分:OddGridBench基准测试和OddGrid-GRPO强化学习框架。OddGridBench用于评估现有模型的性能,OddGrid-GRPO则用于训练模型以提高其细粒度视觉差异感知能力。OddGrid-GRPO框架包括环境(OddGridBench)、智能体(MLLM)、奖励函数(距离感知奖励)和课程学习机制。

关键创新:论文的关键创新在于:1) 提出了OddGridBench,一个专门用于评估MLLM细粒度视觉差异感知能力的基准测试集。2) 设计了OddGrid-GRPO,一个结合课程学习和距离感知奖励的强化学习框架,用于提升模型在该方面的能力。与现有方法相比,OddGrid-GRPO能够更有效地引导模型学习细粒度的视觉差异。

关键设计:OddGrid-GRPO的关键设计包括:1) 课程学习:逐步增加训练样本的难度,从简单的视觉差异开始,逐渐过渡到更复杂的差异。2) 距离感知奖励:奖励函数考虑了空间邻近约束,即如果模型选择的元素在空间上与正确答案接近,则给予更高的奖励。3) 强化学习算法:使用合适的强化学习算法(具体算法未知)来训练模型,优化其在OddGridBench上的表现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有MLLM在OddGridBench上的表现远低于人类水平,验证了其在细粒度视觉差异感知方面的不足。OddGrid-GRPO能够显著提升模型在该方面的能力,具体提升幅度未知。该研究为后续提升MLLM的视觉感知能力提供了新的思路和方法。

🎯 应用场景

该研究成果可应用于需要高精度视觉感知的领域,例如工业质检、医学图像分析、自动驾驶等。通过提高MLLM对细粒度视觉差异的感知能力,可以提升这些应用场景中的准确性和可靠性。未来,该研究可以推动多模态智能在更广泛领域的应用。

📄 摘要(原文)

Multimodal large language models (MLLMs) have achieved remarkable performance across a wide range of vision language tasks. However, their ability in low-level visual perception, particularly in detecting fine-grained visual discrepancies, remains underexplored and lacks systematic analysis. In this work, we introduce OddGridBench, a controllable benchmark for evaluating the visual discrepancy sensitivity of MLLMs. OddGridBench comprises over 1,400 grid-based images, where a single element differs from all others by one or multiple visual attributes such as color, size, rotation, or position. Experiments reveal that all evaluated MLLMs, including open-source families such as Qwen3-VL and InternVL3.5, and proprietary systems like Gemini-2.5-Pro and GPT-5, perform far below human levels in visual discrepancy detection. We further propose OddGrid-GRPO, a reinforcement learning framework that integrates curriculum learning and distance-aware reward. By progressively controlling the difficulty of training samples and incorporating spatial proximity constraints into the reward design, OddGrid-GRPO significantly enhances the model's fine-grained visual discrimination ability. We hope OddGridBench and OddGrid-GRPO will lay the groundwork for advancing perceptual grounding and visual discrepancy sensitivity in multimodal intelligence. Code and dataset are available at https://wwwtttjjj.github.io/OddGridBench/.