MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning

📄 arXiv: 2603.12266v1 📥 PDF

作者: Haozhan Shen, Shilin Yan, Hongwei Xue, Shuaiqi Lu, Xiaojun Tang, Guannan Zhang, Tiancheng Zhao, Jianwei Yin

分类: cs.CV

发布日期: 2026-03-12

备注: Project Page: https://accio-lab.github.io/MM-CondChain


💡 一句话要点

MM-CondChain:用于视觉条件深度组合推理的可验证基准测试

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 组合推理 视觉推理 基准测试 大型语言模型 程序化生成 可验证性

📋 核心要点

  1. 现有MLLM在处理需要深度组合推理的视觉工作流任务时表现不足,缺乏合适的评测基准。
  2. 提出MM-CondChain基准,通过多层推理链评估MLLM在视觉条件下的深度组合推理能力。
  3. 采用代理合成管道自动生成可验证的基准数据,涵盖自然图像、数据图表和GUI轨迹三个领域。

📝 摘要(中文)

多模态大型语言模型(MLLM)越来越多地用于执行视觉工作流程,例如导航GUI,其中下一步取决于经过验证的视觉组合条件(例如,“如果出现权限对话框且界面颜色为绿色,则单击允许”),并且该过程可能会分支或提前终止。然而,这种能力仍未得到充分评估:现有的基准测试侧重于浅层组合或独立约束,而不是深度链式组合条件。在本文中,我们介绍了MM-CondChain,这是一个用于视觉条件深度组合推理的基准。每个基准实例都组织为多层推理链,其中每一层都包含一个基于视觉证据的非平凡组合条件,并由多个对象、属性或关系构建。为了正确回答,MLLM必须详细感知图像,在每一步推理多个视觉元素,并遵循生成的执行路径到达最终结果。为了可扩展地构建这种工作流式数据,我们提出了一种代理合成管道:规划器协调组合条件的分层生成,而可验证程序中间表示(VPIR)确保每一层的条件在机械上是可验证的。然后,组合器将这些经过验证的层组装成完整的指令。使用此管道,我们构建了跨越三个视觉领域的基准:自然图像、数据图表和GUI轨迹。在一系列MLLM上的实验表明,即使是最强的模型也仅达到53.33的Path F1,并且在硬负例以及深度或谓词复杂度增加时急剧下降,这证实了深度组合推理仍然是一个根本性的挑战。

🔬 方法详解

问题定义:现有基准测试无法充分评估多模态大型语言模型(MLLM)在视觉工作流中深度组合推理的能力。这些工作流通常需要根据复杂的视觉条件链来执行操作,例如GUI导航,其中每一步的决策依赖于对图像中多个对象、属性和关系的推理。现有基准侧重于浅层组合或独立约束,无法有效衡量MLLM处理深度链式组合条件的能力。

核心思路:MM-CondChain的核心思路是构建一个多层推理链,其中每一层都包含一个基于视觉证据的非平凡组合条件。为了正确回答,MLLM必须详细感知图像,在每一步推理多个视觉元素,并遵循生成的执行路径到达最终结果。通过这种方式,可以更全面地评估MLLM在复杂视觉推理任务中的能力。

技术框架:MM-CondChain的构建包含以下几个主要模块:1) 规划器(Planner):负责协调组合条件的分层生成,确定每一层需要推理的视觉元素和关系。2) 可验证程序中间表示(VPIR):确保每一层的条件在机械上是可验证的,避免生成不合理或无法执行的条件。3) 组合器(Composer):将经过验证的层组装成完整的指令,形成多层推理链。整个流程采用代理合成管道,实现基准数据的可扩展生成。

关键创新:MM-CondChain的关键创新在于其可验证的程序化生成流程,该流程能够自动生成具有深度组合推理需求的基准数据。与手动标注或简单组合现有数据集的方法相比,该方法能够更高效、更可控地生成高质量的测试用例。VPIR的使用确保了生成条件的合理性和可验证性,避免了无效或歧义的测试用例。

关键设计:VPIR的设计是关键。它定义了一套规则和约束,用于描述视觉条件和操作。例如,可以定义对象类型、属性、关系以及它们之间的逻辑组合方式。规划器在生成每一层条件时,必须遵循VPIR的规则,确保生成的条件是语法正确且语义明确的。此外,为了增加基准的多样性,可以调整规划器的参数,例如每一层条件的复杂度和推理深度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使是最强的MLLM在MM-CondChain基准上表现仍然有限,Path F1仅为53.33%。在处理硬负例以及深度或谓词复杂度增加时,性能急剧下降。这表明深度组合推理仍然是MLLM面临的一个根本性挑战,MM-CondChain能够有效区分不同模型的性能差异。

🎯 应用场景

MM-CondChain可用于评估和提升多模态大型语言模型在视觉工作流任务中的表现,例如GUI自动化、机器人导航、智能文档处理等。通过该基准,可以推动MLLM在需要深度组合推理的实际应用中的发展,提高其可靠性和实用性。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) are increasingly used to carry out visual workflows such as navigating GUIs, where the next step depends on verified visual compositional conditions (e.g., "if a permission dialog appears and the color of the interface is green, click Allow") and the process may branch or terminate early. Yet this capability remains under-evaluated: existing benchmarks focus on shallow-compositions or independent-constraints rather than deeply chained compositional conditionals. In this paper, we introduce MM-CondChain, a benchmark for visually grounded deep compositional reasoning. Each benchmark instance is organized as a multi-layer reasoning chain, where every layer contains a non-trivial compositional condition grounded in visual evidence and built from multiple objects, attributes, or relations. To answer correctly, an MLLM must perceive the image in detail, reason over multiple visual elements at each step, and follow the resulting execution path to the final outcome. To scalably construct such workflow-style data, we propose an agentic synthesis pipeline: a Planner orchestrates layer-by-layer generation of compositional conditions, while a Verifiable Programmatic Intermediate Representation (VPIR) ensures each layer's condition is mechanically verifiable. A Composer then assembles these verified layers into complete instructions. Using this pipeline, we construct benchmarks across three visual domains: natural images, data charts, and GUI trajectories. Experiments on a range of MLLMs show that even the strongest model attains only 53.33 Path F1, with sharp drops on hard negatives and as depth or predicate complexity grows, confirming that deep compositional reasoning remains a fundamental challenge.