Strategy-Aware Optimization Modeling with Reasoning LLMs
作者: Ruiqing Zhao, Fengzhi Li, Yuan Zuo, Rui Liu, Yansong Liu, Yunfei Ma, Fanyu Meng, Junlan Feng
分类: cs.AI
发布日期: 2026-05-04
🔗 代码/项目: GITHUB
💡 一句话要点
提出SAGE框架,显式建模优化策略,提升LLM在优化问题建模中的正确性和效率。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 优化建模 大型语言模型 策略学习 强化学习 自动化建模 约束优化
📋 核心要点
- 现有LLM在优化建模中缺乏有效的策略选择,导致模型生成错误公式和求解器效率低下。
- SAGE框架通过显式建模优化策略,构建多策略数据集,并采用分段加权GRPO进行训练。
- 实验结果表明,SAGE在多个基准测试中显著提高了优化建模的正确性、多样性和求解器效率。
📝 摘要(中文)
大型语言模型(LLM)能够生成符合语法的优化程序,但常常难以可靠地选择有效的建模策略,导致不正确的公式和低效的求解器行为。我们提出了SAGE,一个策略感知的框架,在数据构建和后训练中显式地建模策略。SAGE构建了一个求解器验证的多策略数据集,并使用监督微调训练学生模型,然后使用分段加权GRPO,该方法使用格式合规性、正确性和求解器效率的复合奖励。在涵盖合成和真实世界设置的八个基准测试中,SAGE将平均pass@1从72.7提高到80.3,超过了最强的开源基线。通过多次生成,SAGE发现了更多不同的正确公式,并在pass@16时将组件级别的多样性提高了19-29%。在最大规模上,SAGE产生了更紧凑的约束系统,比基线减少了14.2%的约束,这与求解器高效建模一致。总的来说,这些结果表明,显式地建模策略可以改进自动优化建模。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在自动优化建模中策略选择能力不足的问题。现有方法生成的优化程序虽然语法正确,但由于缺乏对建模策略的理解,导致公式错误,求解器效率低下,难以应用于实际场景。
核心思路:论文的核心思路是显式地建模优化策略,让LLM能够学习并选择合适的建模策略。通过构建包含多种策略的数据集,并训练模型学习这些策略,从而提高模型生成正确且高效的优化程序的能力。
技术框架:SAGE框架主要包含两个阶段:数据构建和模型训练。数据构建阶段,构建一个求解器验证的多策略数据集,其中每个问题都有多种不同的建模策略和对应的正确公式。模型训练阶段,首先使用监督微调(SFT)训练一个学生模型,然后使用分段加权GRPO(Segment-Weighted GRPO)进行强化学习,优化模型的策略选择能力。GRPO使用一个复合奖励函数,综合考虑格式合规性、正确性和求解器效率。
关键创新:SAGE的关键创新在于显式地建模优化策略。与以往直接训练LLM生成优化程序的方法不同,SAGE将建模策略作为模型学习的一个显式目标,从而提高了模型对优化问题的理解和建模能力。此外,分段加权GRPO能够更有效地优化模型的策略选择能力。
关键设计:SAGE使用分段加权GRPO,根据生成程序的质量(格式合规性、正确性和求解器效率)对不同的片段进行加权,从而更有效地训练模型。复合奖励函数的设计综合考虑了多个因素,能够引导模型生成高质量的优化程序。数据集的构建也至关重要,需要包含多种不同的建模策略和对应的正确公式。
🖼️ 关键图片
📊 实验亮点
SAGE在八个基准测试中,将平均pass@1从72.7提高到80.3,超过了最强的开源基线。在pass@16时,SAGE将组件级别的多样性提高了19-29%。此外,SAGE生成的约束系统比基线减少了14.2%的约束,表明其能够生成更紧凑、求解器更友好的模型。
🎯 应用场景
SAGE框架可应用于各种优化问题的自动建模,例如资源分配、生产调度、物流优化等。该研究成果有助于降低优化建模的门槛,使非专业人士也能利用优化技术解决实际问题。未来,SAGE有望集成到自动化建模平台中,为各行各业提供智能化的优化解决方案。
📄 摘要(原文)
Large language models (LLMs) can generate syntactically valid optimization programs, yet often struggle to reliably choose an effective modeling strategy, leading to incorrect formulations and inefficient solver behavior. We propose SAGE, a strategy-aware framework that makes Modeling Strategy explicit in both data construction and post-training. SAGE builds a solver-verified multi-strategy dataset and trains a student model with supervised fine-tuning followed by Segment-Weighted GRPO using a composite reward over format compliance, correctness, and solver efficiency. Across eight benchmarks spanning synthetic and real-world settings, SAGE improves average pass@1 from 72.7 to 80.3 over the strongest open-source baseline. With multiple generations, SAGE discovers more distinct correct formulations and improves component-level diversity at pass@16 by 19-29%. At the largest scale, SAGE produces more compact constraint systems with 14.2% fewer constraints than the baseline, consistent with solver-efficient modeling. Overall, these results show that making Modeling Strategy explicit improves automated optimization modeling. Code is available at https://github.com/rachhhhing/SAGE.