OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models

作者: Tengjin Weng, Wenhao Jiang, Jingyi Wang, Ming Li, Lin Ma, Zhong Ming

分类: cs.CV

发布日期: 2026-03-10

备注: accepted by CVPR 2026

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

OddGridBench揭示多模态大模型在细粒度视觉差异感知上的不足

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 视觉差异感知 细粒度视觉 基准测试 强化学习 课程学习 距离感知奖励 视觉语言任务

📋 核心要点

现有MLLM在视觉语言任务中表现出色，但在细粒度视觉差异感知方面存在不足，缺乏系统性评估。
提出OddGridBench基准测试MLLM的视觉差异敏感性，并设计OddGrid-GRPO强化学习框架提升模型能力。
实验表明现有MLLM在OddGridBench上表现远低于人类水平，OddGrid-GRPO能有效提升细粒度视觉辨别能力。

📝 摘要（中文）

多模态大型语言模型（MLLM）在各种视觉语言任务中取得了显著的性能。然而，它们在低级视觉感知方面的能力，特别是在检测细粒度视觉差异方面的能力，仍未得到充分探索，并且缺乏系统的分析。本文提出了OddGridBench，这是一个可控的基准，用于评估MLLM的视觉差异敏感性。OddGridBench包含超过1400个基于网格的图像，其中单个元素在颜色、大小、旋转或位置等一个或多个视觉属性上与其他元素不同。实验表明，包括Qwen3-VL和InternVL3.5等开源模型以及Gemini-2.5-Pro和GPT-5等专有系统在内的所有评估的MLLM在视觉差异检测方面的表现都远低于人类水平。我们进一步提出了OddGrid-GRPO，一个强化学习框架，它集成了课程学习和距离感知奖励。通过逐步控制训练样本的难度并将空间邻近约束纳入奖励设计，OddGrid-GRPO显著提高了模型的细粒度视觉辨别能力。我们希望OddGridBench和OddGrid-GRPO将为推进多模态智能中的感知基础和视觉差异敏感性奠定基础。

🔬 方法详解

问题定义：论文旨在解决多模态大语言模型（MLLM）在细粒度视觉差异感知能力上的不足。现有方法缺乏对MLLM在低级视觉感知能力，特别是检测细微视觉差异方面的系统性评估和提升。现有模型难以准确区分网格图像中与其他元素存在细微差异的元素，这限制了它们在需要高精度视觉感知的任务中的应用。

核心思路：论文的核心思路是通过构建一个可控的基准测试集（OddGridBench）来评估现有MLLM的视觉差异敏感性，并利用强化学习框架（OddGrid-GRPO）来提升模型在该方面的能力。OddGrid-GRPO通过课程学习和距离感知奖励，逐步引导模型学习细粒度的视觉差异。

技术框架：整体框架包含两个主要部分：OddGridBench基准测试和OddGrid-GRPO强化学习框架。OddGridBench用于评估现有模型的性能，OddGrid-GRPO则用于训练模型以提高其细粒度视觉差异感知能力。OddGrid-GRPO框架包括环境（OddGridBench）、智能体（MLLM）、奖励函数（距离感知奖励）和课程学习机制。

关键创新：论文的关键创新在于：1) 提出了OddGridBench，一个专门用于评估MLLM细粒度视觉差异感知能力的基准测试集。2) 设计了OddGrid-GRPO，一个结合课程学习和距离感知奖励的强化学习框架，用于提升模型在该方面的能力。与现有方法相比，OddGrid-GRPO能够更有效地引导模型学习细粒度的视觉差异。

关键设计：OddGrid-GRPO的关键设计包括：1) 课程学习：逐步增加训练样本的难度，从简单的视觉差异开始，逐渐过渡到更复杂的差异。2) 距离感知奖励：奖励函数考虑了空间邻近约束，即如果模型选择的元素在空间上与正确答案接近，则给予更高的奖励。3) 强化学习算法：使用合适的强化学习算法（具体算法未知）来训练模型，优化其在OddGridBench上的表现。

🖼️ 关键图片

📊 实验亮点

实验结果表明，现有MLLM在OddGridBench上的表现远低于人类水平，验证了其在细粒度视觉差异感知方面的不足。OddGrid-GRPO能够显著提升模型在该方面的能力，具体提升幅度未知。该研究为后续提升MLLM的视觉感知能力提供了新的思路和方法。

🎯 应用场景

该研究成果可应用于需要高精度视觉感知的领域，例如工业质检、医学图像分析、自动驾驶等。通过提高MLLM对细粒度视觉差异的感知能力，可以提升这些应用场景中的准确性和可靠性。未来，该研究可以推动多模态智能在更广泛领域的应用。

📄 摘要（原文）

Multimodal large language models (MLLMs) have achieved remarkable performance across a wide range of vision language tasks. However, their ability in low-level visual perception, particularly in detecting fine-grained visual discrepancies, remains underexplored and lacks systematic analysis. In this work, we introduce OddGridBench, a controllable benchmark for evaluating the visual discrepancy sensitivity of MLLMs. OddGridBench comprises over 1,400 grid-based images, where a single element differs from all others by one or multiple visual attributes such as color, size, rotation, or position. Experiments reveal that all evaluated MLLMs, including open-source families such as Qwen3-VL and InternVL3.5, and proprietary systems like Gemini-2.5-Pro and GPT-5, perform far below human levels in visual discrepancy detection. We further propose OddGrid-GRPO, a reinforcement learning framework that integrates curriculum learning and distance-aware reward. By progressively controlling the difficulty of training samples and incorporating spatial proximity constraints into the reward design, OddGrid-GRPO significantly enhances the model's fine-grained visual discrimination ability. We hope OddGridBench and OddGrid-GRPO will lay the groundwork for advancing perceptual grounding and visual discrepancy sensitivity in multimodal intelligence. Code and dataset are available at https://wwwtttjjj.github.io/OddGridBench/.

OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理