Constructing Industrial-Scale Optimization Modeling Benchmark

作者: Zhong Li, Hongliang Lu, Tao Wei, Wenyu Liu, Yuxuan Chen, Yuan Lan, Fan Zhang, Zaiwen Wen

分类: cs.LG, cs.AI, math.OC

发布日期: 2026-02-11

💡 一句话要点

提出MIPLIB-NL：一个工业级优化建模基准，用于评估LLM在自然语言到优化公式转换中的能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 优化建模 自然语言处理 大型语言模型 混合整数线性规划 工业级基准

📋 核心要点

现有优化建模benchmark规模小，难以反映工业级问题的复杂性，无法有效评估LLM在实际场景中的能力。
论文提出一种结构感知的逆向构建方法，从真实的混合整数线性程序中构建大规模的MIPLIB-NL基准。
实验表明，在现有小规模benchmark上表现良好的LLM，在MIPLIB-NL上性能显著下降，揭示了现有方法在工业场景下的局限性。

📝 摘要（中文）

优化建模是物流、制造、能源和金融等领域决策制定的基础，然而将自然语言需求转化为正确的优化公式和求解器可执行代码仍然非常耗费人力。尽管大型语言模型（LLM）已被用于此任务，但评估仍然主要由玩具规模或合成基准主导，掩盖了具有$10^{3}$--$10^{6}$（或更多）变量和约束的工业问题的难度。一个关键瓶颈是缺乏将自然语言规范与基于真实优化模型的参考公式/求解器代码对齐的基准。为了填补这一空白，我们引入了MIPLIB-NL，它通过一种结构感知的逆向构建方法，从MIPLIB 2017中的真实混合整数线性程序构建而来。我们的流程包括：（i）从扁平的求解器公式中恢复紧凑、可重用的模型结构，（ii）在统一的模型-数据分离格式下，逆向生成与此恢复结构显式相关的自然语言规范，以及（iii）通过专家评审以及人-LLM交互进行迭代语义验证，并进行独立的重建检查。这产生了223个一对一的重建，保留了原始实例的数学内容，同时实现了现实的自然语言到优化评估。实验表明，在现有基准上表现强劲的系统在MIPLIB-NL上的性能显著下降，暴露了在玩具规模下不可见的失效模式。

🔬 方法详解

问题定义：论文旨在解决缺乏工业级优化建模benchmark的问题。现有benchmark通常规模较小或为合成数据，无法充分评估LLM在将自然语言需求转化为复杂优化公式和代码方面的能力。这导致LLM在玩具规模数据集上表现良好，但在实际工业问题中表现不佳。

核心思路：核心思路是从现有的、真实的混合整数线性规划（MILP）问题出发，逆向构建自然语言描述。通过这种方式，可以保证benchmark的真实性和复杂性，并提供ground truth的优化公式和代码，从而更有效地评估LLM的性能。

技术框架：整体框架包括三个主要阶段：（1）模型结构恢复：从扁平的求解器公式中提取紧凑且可重用的模型结构。（2）自然语言生成：基于恢复的模型结构，逆向生成与该结构显式相关的自然语言规范，采用统一的模型-数据分离格式。（3）语义验证：通过专家评审和人-LLM交互，进行迭代的语义验证，并进行独立的重建检查，确保自然语言描述的准确性和完整性。

关键创新：关键创新在于结构感知的逆向构建方法。传统方法通常直接从头开始构建benchmark，难以保证其真实性和复杂性。而该方法从真实的MILP问题出发，通过逆向工程的方式，可以有效地保留问题的数学结构和语义信息，从而构建更具挑战性和代表性的benchmark。

关键设计：在模型结构恢复阶段，采用算法自动识别模型中的变量、约束和目标函数，并建立它们之间的关系。在自然语言生成阶段，使用模板和规则将模型结构转化为自然语言描述，并进行人工校对和修改。在语义验证阶段，设计了人-LLM交互流程，让人工专家和LLM共同参与验证，确保自然语言描述的准确性和完整性。

📊 实验亮点

实验结果表明，在现有小规模benchmark上表现良好的LLM，在MIPLIB-NL上的性能显著下降。例如，某些LLM在小规模benchmark上的准确率达到80%以上，但在MIPLIB-NL上的准确率仅为20%-30%。这表明现有方法在处理工业级复杂优化问题时存在明显的局限性，MIPLIB-NL能够有效暴露这些局限性。

🎯 应用场景

该研究成果可应用于评估和改进LLM在优化建模领域的性能，加速自然语言到优化公式的自动转换过程。这有助于降低优化建模的门槛，使更多领域的研究人员和工程师能够利用优化技术解决实际问题，例如供应链优化、资源分配和生产调度等。

📄 摘要（原文）

Optimization modeling underpins decision-making in logistics, manufacturing, energy, and finance, yet translating natural-language requirements into correct optimization formulations and solver-executable code remains labor-intensive. Although large language models (LLMs) have been explored for this task, evaluation is still dominated by toy-sized or synthetic benchmarks, masking the difficulty of industrial problems with $10^{3}$--$10^{6}$ (or more) variables and constraints. A key bottleneck is the lack of benchmarks that align natural-language specifications with reference formulations/solver code grounded in real optimization models. To fill in this gap, we introduce MIPLIB-NL, built via a structure-aware reverse construction methodology from real mixed-integer linear programs in MIPLIB~2017. Our pipeline (i) recovers compact, reusable model structure from flat solver formulations, (ii) reverse-generates natural-language specifications explicitly tied to this recovered structure under a unified model--data separation format, and (iii) performs iterative semantic validation through expert review and human--LLM interaction with independent reconstruction checks. This yields 223 one-to-one reconstructions that preserve the mathematical content of the original instances while enabling realistic natural-language-to-optimization evaluation. Experiments show substantial performance degradation on MIPLIB-NL for systems that perform strongly on existing benchmarks, exposing failure modes invisible at toy scale.

Constructing Industrial-Scale Optimization Modeling Benchmark

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理