ReactBench: A Benchmark for Topological Reasoning in MLLMs on Chemical Reaction Diagrams
作者: Qiang Xu, Shengyuan Bai, Yu Wang, He Cao, Leqing Chen, Yuanyuan Liu, Bin Feng, Zijing Liu, Yu Li
分类: cs.AI
发布日期: 2026-04-17
💡 一句话要点
ReactBench:化学反应图上的MLLM拓扑推理基准测试
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 结构推理 化学反应图 基准测试 拓扑结构
📋 核心要点
- 现有MLLM在复杂拓扑结构(如化学反应图)上的结构推理能力不足,尤其是在涉及分支、循环等结构时。
- 提出ReactBench基准测试,利用化学反应图的多样拓扑结构,系统性地评估MLLM的结构推理能力。
- 实验表明,MLLM在ReactBench上,锚点任务与整体结构推理任务之间存在显著性能差距,推理能力是瓶颈。
📝 摘要(中文)
多模态大型语言模型(MLLM)擅长识别单个视觉元素和推理简单的线性图。然而,当面对涉及分支路径、汇聚流和循环依赖等复杂拓扑结构时,即使是像计算端点这样基本的任务,它们的推理能力也会急剧下降。现有的基准测试未能探究这一差距,而是侧重于语义理解而非结构推理。我们引入了ReactBench,该基准测试通过化学反应图揭示了结构推理的根本局限性。这些真实的科学图提供了一个理想的测试平台,因为它们自然地跨越了从线性链到循环图的各种结构,同时需要精确的局部识别和连贯的全局推理。我们的基准测试包含1618个专家注释的QA对,涵盖四个层次化的任务维度。对17个MLLM的广泛评估表明,基于锚点的任务和整体结构推理任务之间存在超过30%的显著性能差距。受控消融实验证实,这种瓶颈在于推理而非感知。这些发现揭示了结构理解方面的根本缺陷,并为推进视觉推理指明了方向。
🔬 方法详解
问题定义:现有MLLM在处理复杂拓扑结构的视觉信息时,推理能力显著下降。具体来说,即使是像计算化学反应图中端点数量这样简单的任务,MLLM也难以胜任。现有的基准测试更侧重于语义理解,忽略了对结构推理能力的有效评估。因此,需要一个能够系统性地评估MLLM在复杂拓扑结构上推理能力的基准测试。
核心思路:ReactBench的核心思路是利用化学反应图作为测试MLLM结构推理能力的载体。化学反应图具有丰富的拓扑结构,包括线性链、分支路径、汇聚流和循环依赖等,能够全面地考察MLLM在不同结构上的推理能力。通过设计一系列基于化学反应图的问答对,可以定量地评估MLLM的结构推理性能。
技术框架:ReactBench基准测试包含以下几个关键组成部分: 1. 化学反应图数据集:收集并整理包含各种拓扑结构的化学反应图。 2. 专家标注的问答对:针对每个化学反应图,设计一系列需要结构推理才能回答的问题,并由专家进行标注。 3. 分层任务维度:将问答对按照任务难度进行分层,从简单的锚点识别到复杂的整体结构推理。 4. 评估指标:设计合适的评估指标,用于衡量MLLM在不同任务维度上的性能。
关键创新:ReactBench的关键创新在于其专注于评估MLLM的结构推理能力,而非仅仅是语义理解。与现有基准测试相比,ReactBench更加强调对复杂拓扑结构的理解和推理,能够更有效地揭示MLLM在结构推理方面的局限性。此外,使用化学反应图作为测试载体,使得基准测试更具科学性和实际意义。
关键设计:ReactBench包含1618个专家标注的QA对,涵盖四个层次化的任务维度,从简单的元素识别到复杂的结构推理。评估了17个MLLM,并进行了受控消融实验,以验证性能瓶颈在于推理而非感知。基准测试的设计考虑了化学反应图的多样性,确保能够全面地评估MLLM在不同拓扑结构上的推理能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,17个MLLM在ReactBench上表现出显著的性能差距,锚点任务与整体结构推理任务之间差距超过30%。消融实验证实,性能瓶颈主要在于推理能力,而非感知能力。这些结果清晰地揭示了现有MLLM在结构理解方面的不足,为未来的研究方向提供了重要启示。
🎯 应用场景
ReactBench的研究成果可应用于提升MLLM在科学图表、电路图、流程图等复杂拓扑结构上的理解和推理能力。这有助于在化学、生物、工程等领域实现更智能的自动化分析和决策,例如自动识别化学反应路径、诊断电路故障等,具有重要的实际应用价值。
📄 摘要(原文)
Multimodal Large Language Models (MLLMs) excel at recognizing individual visual elements and reasoning over simple linear diagrams. However, when faced with complex topological structures involving branching paths, converging flows, and cyclic dependencies, their reasoning capabilities degrade sharply, even on tasks as basic as counting endpoints. Existing benchmarks fail to probe this gap, focusing on semantic comprehension rather than structural reasoning. We introduce ReactBench, a benchmark that reveals fundamental limitations in structural reasoning through chemical reaction diagrams. These real-world scientific diagrams offer an ideal testbed because they naturally span diverse structures from linear chains to cyclic graphs, while requiring both precise local recognition and coherent global reasoning. Our benchmark comprises 1,618 expert-annotated QA pairs across four hierarchical task dimensions. Extensive evaluation across 17 MLLMs reveals a significant performance gap exceeding 30% between anchor-based tasks and holistic structural reasoning tasks. Controlled ablations confirm this bottleneck lies in reasoning, not perception. These findings expose a fundamental deficit in structural understanding and establish directions for advancing visual reasoning.