MathSticks: A Benchmark for Visual Symbolic Compositional Reasoning with Matchstick Puzzles
作者: Yuheng Ji, Huajie Tan, Cheng Chi, Yijie Xu, Yuting Zhao, Enshen Zhou, Huaihai Lyu, Pengwei Wang, Zhongyuan Wang, Shanghang Zhang, Xiaolong Zheng
分类: cs.CV
发布日期: 2025-10-01
🔗 代码/项目: GITHUB
💡 一句话要点
提出MathSticks:一个用于视觉符号组合推理的火柴棍谜题基准
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 视觉符号推理 组合推理 视觉-语言模型 火柴棍谜题 基准数据集
📋 核心要点
- 现有视觉-语言模型在处理需要组合推理、视觉感知和符号操作的任务时存在局限性。
- MathSticks基准通过火柴棍谜题,统一视觉感知、符号操作和算术一致性,评估模型在组合推理方面的能力。
- 实验表明,现有视觉-语言模型在MathSticks基准上表现不佳,凸显了该基准的挑战性和价值。
📝 摘要(中文)
本文介绍MathSticks,一个用于视觉符号组合推理(VSCR)的基准,它统一了视觉感知、符号操作和算术一致性。每个任务都呈现一个不正确的火柴棍等式,必须通过移动一根或两根火柴棍在严格的守恒规则下进行纠正。该基准包括文本引导和纯视觉设置,系统地涵盖了数字尺度、移动复杂性、解决方案多样性和运算符变化,包含140万个生成的实例和一个精心策划的测试集。对14个视觉-语言模型的评估揭示了显著的局限性:闭源模型仅在简单情况下成功,开源模型在视觉领域失败,而人类的准确率超过90%。这些发现将MathSticks确立为一个严格的测试平台,用于推进跨视觉和符号的组合推理。我们的代码和数据集可在https://github.com/Yuheng2000/MathSticks公开获取。
🔬 方法详解
问题定义:现有视觉-语言模型在处理需要组合推理的任务时,往往难以同时兼顾视觉感知、符号操作和算术一致性。例如,在火柴棍谜题中,模型需要识别数字和运算符,理解移动火柴棍的规则,并确保移动后的等式在算术上是正确的。现有方法通常在这些方面存在不足,导致性能不佳。
核心思路:MathSticks基准的核心思路是通过构建一个包含大量火柴棍谜题的数据集,来系统地评估视觉-语言模型在视觉符号组合推理方面的能力。该基准涵盖了不同难度级别和类型的谜题,旨在全面测试模型的视觉感知、符号操作和算术推理能力。通过分析模型在不同类型谜题上的表现,可以深入了解模型的优势和不足。
技术框架:MathSticks基准包含两个主要设置:文本引导设置和纯视觉设置。在文本引导设置中,模型接收谜题的图像和文本描述,需要输出正确的火柴棍移动方案。在纯视觉设置中,模型仅接收谜题的图像,需要自行完成视觉感知和符号操作。该基准还包括一个数据生成器,可以自动生成大量的火柴棍谜题,并提供相应的解决方案。
关键创新:MathSticks基准的关键创新在于其统一了视觉感知、符号操作和算术一致性,并提供了一个系统化的评估框架。与以往的视觉-语言推理基准相比,MathSticks更加注重组合推理能力,并提供了更丰富的谜题类型和难度级别。此外,该基准还提供了一个数据生成器,可以方便地生成新的谜题,从而促进了相关研究的发展。
关键设计:MathSticks基准在设计时考虑了多个因素,包括数字尺度、移动复杂性、解决方案多样性和运算符变化。数字尺度指的是谜题中使用的数字的大小,移动复杂性指的是需要移动的火柴棍的数量,解决方案多样性指的是谜题是否存在多个解决方案,运算符变化指的是谜题中使用的运算符的类型。通过控制这些因素,可以系统地评估模型在不同情况下的表现。
📊 实验亮点
对14个视觉-语言模型的评估表明,闭源模型仅在简单情况下成功,开源模型在视觉领域失败,而人类的准确率超过90%。这表明现有模型在处理复杂的视觉符号组合推理任务时仍存在很大的差距,MathSticks基准能够有效区分不同模型的性能,并为未来的研究提供有价值的参考。
🎯 应用场景
MathSticks基准的潜在应用领域包括机器人视觉、智能教育和视觉辅助技术。例如,可以利用该基准训练机器人识别和解决现实世界中的类似问题,开发智能教育应用来帮助学生提高数学能力,或者设计视觉辅助工具来帮助视障人士理解数学表达式。该研究的未来影响在于推动视觉-语言模型在组合推理方面的发展,并促进相关技术在实际应用中的落地。
📄 摘要(原文)
We introduce \textsc{MathSticks}, a benchmark for Visual Symbolic Compositional Reasoning (VSCR), which unifies visual perception, symbolic manipulation, and arithmetic consistency. Each task presents an incorrect matchstick equation that must be corrected by moving one or two sticks under strict conservation rules. The benchmark includes both text-guided and purely visual settings, systematically covering digit scale, move complexity, solution multiplicity, and operator variation, with 1.4M generated instances and a curated test set. Evaluations of 14 vision--language models reveal substantial limitations: closed-source models succeed only on simple cases, open-source models fail in the visual regime, while humans exceed 90\% accuracy. These findings establish \textsc{MathSticks} as a rigorous testbed for advancing compositional reasoning across vision and symbols. Our code and dataset are publicly available at https://github.com/Yuheng2000/MathSticks.