OptiBench Meets ReSocratic: Measure and Improve LLMs for Optimization Modeling
作者: Zhicheng Yang, Yiwei Wang, Yinya Huang, Zhijiang Guo, Wei Shi, Xiongwei Han, Liang Feng, Linqi Song, Xiaodan Liang, Jing Tang
分类: cs.LG, math.OC
发布日期: 2024-07-13 (更新: 2025-06-04)
期刊: The Thirteenth International Conference on Learning Representations, 2025
💡 一句话要点
提出OptiBench基准和ReSocratic数据合成方法,提升LLM在优化建模中的问题解决能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 优化建模 大型语言模型 数据合成 基准测试 ReSocratic OptiBench 数学推理
📋 核心要点
- 现有优化基准过于简单,无法充分评估LLM在复杂现实优化问题中的解决能力,缺乏对非线性规划和表格数据的支持。
- 提出ReSocratic数据合成方法,通过先生成格式化的优化演示,再反向翻译成问题,有效缓解优化问题的数据稀缺性。
- 实验表明,使用ReSocratic-29k数据集对开源模型进行微调,能够显著提升其在OptiBench基准上的性能表现。
📝 摘要(中文)
大型语言模型(LLM)已展现出在数学推理方面的解题能力。在实际应用场景中解决现实的优化(OPT)问题需要高级和应用的数学能力。然而,目前仅解决线性规划的OPT基准远未达到复杂现实情况的要求。本文提出了OptiBench,一个端到端的优化问题解决基准,具有人类可读的输入和输出,包含丰富的优化问题,包括有或没有表格数据的线性和非线性规划,可以全面评估LLM的解决能力。在我们的基准测试中,LLM需要调用代码求解器来提供精确的数值答案。此外,为了缓解优化问题的数据稀缺性,并弥合小规模开源LLM(例如,Llama-3-8b)和闭源LLM(例如,GPT-4)之间的差距,我们进一步提出了一种名为ReSocratic的数据合成方法。与从问题到答案的一般数据合成方法不同,ReSocratic首先逐步增量式地合成具有数学公式的格式化优化演示,然后将生成的演示反向翻译成问题。基于此,我们合成了ReSocratic-29k数据集。我们进一步使用ReSocratic-29k对多个开源模型进行了监督微调。实验结果表明,ReSocratic-29k显着提高了开源模型的性能。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在解决复杂现实优化问题时面临的挑战。现有优化基准主要集中在线性规划,缺乏对非线性规划以及包含表格数据的优化问题的支持,无法全面评估LLM的优化能力。此外,优化问题的数据稀缺性以及开源LLM与闭源LLM之间的性能差距也是亟待解决的问题。
核心思路:论文的核心思路是构建一个更全面、更贴近实际的优化问题基准OptiBench,并提出一种新的数据合成方法ReSocratic来缓解数据稀缺问题。ReSocratic的核心思想是从答案(优化演示)出发,反向生成问题,从而保证生成数据的质量和多样性。
技术框架:整体框架包含两个主要部分:OptiBench基准的构建和ReSocratic数据合成方法的应用。OptiBench基准包含线性和非线性规划问题,以及有无表格数据的不同场景。ReSocratic数据合成方法首先增量式地生成格式化的优化演示,然后使用反向翻译技术将演示转化为问题。最后,使用合成的数据集对开源LLM进行微调。
关键创新:ReSocratic数据合成方法是本论文的关键创新点。与传统的数据合成方法(从问题到答案)不同,ReSocratic采用从答案到问题的反向生成策略,能够更好地控制生成数据的质量和多样性,从而有效地提升LLM在优化问题上的性能。
关键设计:ReSocratic的关键设计在于其增量式的优化演示生成过程。具体来说,它逐步构建数学公式,并确保每一步的逻辑正确性。反向翻译过程则利用现有的翻译模型,将生成的演示转化为自然语言问题。数据集ReSocratic-29k包含29000个合成的优化问题。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用ReSocratic-29k数据集对开源模型进行微调后,模型在OptiBench基准上的性能得到了显著提升。例如,Llama-3-8b模型在经过微调后,性能提升幅度超过了未经过微调的GPT-3.5,证明了ReSocratic数据合成方法的有效性。
🎯 应用场景
该研究成果可广泛应用于各种需要优化建模的领域,例如供应链管理、资源分配、金融投资组合优化、能源系统优化等。通过提升LLM在优化问题上的解决能力,可以帮助企业和研究机构更高效地解决实际问题,提高决策效率和优化效果,具有重要的实际应用价值和未来发展潜力。
📄 摘要(原文)
Large language models (LLMs) have exhibited their problem-solving abilities in mathematical reasoning. Solving realistic optimization (OPT) problems in application scenarios requires advanced and applied mathematics ability. However, current OPT benchmarks that merely solve linear programming are far from complex realistic situations. In this work, we propose OptiBench, a benchmark for End-to-end optimization problem-solving with human-readable inputs and outputs. OptiBench contains rich optimization problems, including linear and nonlinear programming with or without tabular data, which can comprehensively evaluate LLMs' solving ability. In our benchmark, LLMs are required to call a code solver to provide precise numerical answers. Furthermore, to alleviate the data scarcity for optimization problems, and to bridge the gap between open-source LLMs on a small scale (e.g., Llama-3-8b) and closed-source LLMs (e.g., GPT-4), we further propose a data synthesis method namely ReSocratic. Unlike general data synthesis methods that proceed from questions to answers, \ReSocratic first incrementally synthesizes formatted optimization demonstration with mathematical formulations step by step and then back-translates the generated demonstrations into questions. Based on this, we synthesize the ReSocratic-29k dataset. We further conduct supervised fine-tuning with ReSocratic-29k on multiple open-source models. Experimental results show that ReSocratic-29k significantly improves the performance of open-source models.