MM-OptBench: A Solver-Grounded Benchmark for Multimodal Optimization Modeling

作者: Zhong Li, Qi Huang, Yuxuan Zhu, Mohammad Mohammadi Amiri, Niki van Stein, Thomas Bäck, Matthijs van Leeuwen, Zaiwen Wen, Lincen Yang

分类: cs.AI

发布日期: 2026-05-12

备注: Paper under review

💡 一句话要点

提出MM-OptBench，用于评估多模态优化建模中语言模型生成优化模型和代码的能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态优化建模 大型语言模型 基准测试 求解器验证 决策支持

📋 核心要点

现有优化建模基准主要依赖文本输入，忽略了实际场景中常见的视觉信息，限制了模型在复杂决策问题中的应用。
提出MM-OptBench，一个多模态优化建模基准，要求模型从文本和视觉信息中生成数学公式和可执行的求解器代码。
实验结果表明，现有MLLM在MM-OptBench上表现不佳，尤其是在困难实例和数学专用模型上，突显了该任务的挑战性。

📝 摘要（中文）

优化建模将实际决策问题转化为数学优化模型和可执行的求解器代码。尽管语言模型越来越多地用于生成优化公式和求解器代码，但现有的基准几乎完全是纯文本的。这忽略了运营实践中出现的许多优化建模任务，在这些任务中，需求以文本描述，但实例信息通过表格、图表、地图、时间表和仪表板等视觉信息传递。我们引入了多模态优化建模，这是一种基准设置，其中模型必须从文本和视觉问题规范中构建数学公式和可执行的求解器代码。为了评估这种设置，我们开发了一个求解器基础框架，该框架生成结构化的优化实例，使用精确求解器验证每个实例，并从相同的验证源构建面向模型的输入和隐藏的参考文件。我们将该框架实例化为MM-OptBench，这是一个包含780个求解器验证实例的基准，涵盖6个优化族、26个子类别和3个结构难度级别。我们评估了9个多模态大型语言模型（MLLM），包括6个前沿通用模型和3个数学专用模型，并进行了聚合、族级别、难度级别和故障模式分析。结果表明，这项任务远未解决：最好的两个模型达到了52.1%和51.3%的pass@1，而平均而言，在六个通用MLLM中，简单实例的pass@1为43.4%，困难实例的pass@1为15.9%。所有三个数学专用MLLM都解决了0/780个实例。故障归因表明，错误既出现在从文本和视觉信息中提取实例数据时，也出现在将提取的数据转化为求解器正确的公式和代码时。MM-OptBench为基于求解器的、面向决策的多模态智能提供了一个试验平台。

🔬 方法详解

问题定义：论文旨在解决多模态优化建模问题，即从包含文本和视觉信息的混合输入中自动构建数学优化模型和可执行的求解器代码。现有方法主要依赖于纯文本输入，无法有效处理实际场景中常见的表格、图表等视觉信息，导致模型在复杂决策问题中的性能受限。

核心思路：论文的核心思路是构建一个solver-grounded的基准测试框架，该框架能够生成结构化的优化实例，并使用精确求解器进行验证。通过这种方式，可以确保基准测试的可靠性和准确性，并为多模态大型语言模型（MLLM）提供一个统一的评估平台。

技术框架：MM-OptBench的整体框架包含以下几个主要阶段：1) 优化实例生成：根据预定义的优化族、子类别和难度级别，生成结构化的优化实例；2) 求解器验证：使用精确求解器验证每个实例的可行性和最优性；3) 数据构建：从验证后的实例中构建面向模型的输入（包括文本和视觉信息）和隐藏的参考文件（包括数学公式和求解器代码）；4) 模型评估：使用MLLM生成优化模型和代码，并与参考文件进行比较，计算pass@1等指标。

关键创新：MM-OptBench的关键创新在于其solver-grounded的设计理念。通过使用精确求解器验证每个实例，可以确保基准测试的可靠性和准确性，避免了因实例本身存在问题而导致的评估偏差。此外，MM-OptBench还引入了多模态输入，更贴近实际应用场景，能够更全面地评估MLLM在优化建模方面的能力。

关键设计：在实例生成方面，论文考虑了6个优化族、26个子类别和3个结构难度级别，以覆盖不同类型的优化问题。在模型评估方面，论文使用了pass@1指标，即模型生成的优化模型和代码与参考文件完全一致的概率。此外，论文还进行了故障归因分析，以识别模型在数据提取、公式构建和代码生成等方面的错误。

📊 实验亮点

实验结果显示，在MM-OptBench基准测试中，最佳的两个MLLM模型达到了52.1%和51.3%的pass@1，而通用MLLM在简单实例上的平均pass@1为43.4%，在困难实例上仅为15.9%。所有数学专用MLLM在780个实例上的pass@1均为0%。这些结果表明，现有MLLM在多模态优化建模方面仍存在显著差距，尤其是在处理困难实例和数学公式方面。

🎯 应用场景

该研究成果可应用于智能决策支持系统、自动化优化建模工具等领域。通过提升模型从多模态信息中构建优化模型和代码的能力，可以更高效地解决实际运营中的复杂决策问题，例如供应链优化、资源分配、生产调度等，具有重要的实际应用价值和潜在的经济效益。

📄 摘要（原文）

Optimization modeling translates real decision-making problems into mathematical optimization models and solver-executable implementations. Although language models are increasingly used to generate optimization formulations and solver code, existing benchmarks are almost entirely text-only. This omits many optimization-modeling tasks that arise in operational practice, where requirements are described in text but instance information is conveyed through visual artifacts such as tables, graphs, maps, schedules, and dashboards. We introduce multimodal optimization modeling, a benchmark setting in which models must construct both a mathematical formulation and executable solver code from a text-and-visual problem specification. To evaluate this setting, we develop a solver-grounded framework that generates structured optimization instances, verifies each with an exact solver, and builds both the model-facing inputs and hidden reference files from the same verified source. We instantiate the framework as MM-OptBench, a benchmark of 780 solver-verified instances spanning 6 optimization families, 26 subcategories, and 3 structural difficulty levels. We evaluate 9 multimodal large language models (MLLMs), including 6 frontier general-purpose models and 3 math-specialized models, with aggregate, family-level, difficulty-level, and failure-mode analyses. The results show that the task remains far from solved: the best two models reach 52.1% and 51.3% pass@1, while on average across the six general-purpose MLLMs, pass@1 is 43.4% on easy instances and 15.9% on hard instances. All three math-specialized MLLMs solve 0/780 instances. Failure attribution shows that errors arise both when extracting instance data from text and visuals and when turning extracted data into solver-correct formulations and code. MM-OptBench provides a testbed for solver-grounded, decision-oriented multimodal intelligence.

MM-OptBench: A Solver-Grounded Benchmark for Multimodal Optimization Modeling

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理