OptiVerse: A Comprehensive Benchmark towards Optimization Problem Solving

📄 arXiv: 2604.21510v1 📥 PDF

作者: Xinyu Zhang, Boxuan Zhang, Yuchen Wan, Lingling Zhang, YiXing Yao, Bifan Wei, Yaqiang Wu, Jun Liu

分类: cs.CL

发布日期: 2026-04-23


💡 一句话要点

OptiVerse:构建综合优化问题求解基准,揭示并缓解LLM在复杂优化任务中的建模瓶颈。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 优化问题 基准测试 随机优化 动态优化 博弈优化 最优控制 建模错误

📋 核心要点

  1. 现有优化基准主要集中于数学规划和组合优化,缺乏对随机优化、动态优化等领域的全面评估。
  2. OptiVerse构建了一个包含1000个问题的综合基准,涵盖多个优化领域和难度级别,用于评估LLM的优化能力。
  3. 实验表明,LLM在困难优化问题上表现不佳,建模和逻辑错误是主要瓶颈,并提出双视角审计代理以提升建模准确性。

📝 摘要(中文)

大型语言模型(LLM)在推理方面表现出色,但复杂的优化任务仍然具有挑战性,需要领域知识和强大的实现能力。现有的基准测试主要集中在数学规划和组合优化上,阻碍了全面评估。为了解决这个问题,我们推出了OptiVerse,这是一个包含1000个精心策划问题的综合基准,涵盖了被忽视的领域,包括随机优化、动态优化、博弈优化和最优控制,并分为简单、中等和困难三个难度级别。对22个不同规模的LLM进行的实验表明,在困难问题上性能急剧下降,即使是GPT-5.2和Gemini-3等先进模型也难以超过27%的准确率。通过错误分析,我们发现建模和逻辑错误仍然是主要的瓶颈。因此,我们提出了一种双视角审计代理,可以在不引入显著时间开销的情况下提高LLM建模过程的准确性。OptiVerse将成为推动LLM解决复杂优化挑战的基础平台。

🔬 方法详解

问题定义:论文旨在解决现有LLM在复杂优化问题求解能力不足的问题。现有基准测试覆盖范围有限,主要集中在数学规划和组合优化,忽略了随机优化、动态优化、博弈优化和最优控制等重要领域。此外,现有方法在建模和逻辑推理方面存在瓶颈,导致在困难问题上性能显著下降。

核心思路:论文的核心思路是构建一个更全面、更具挑战性的优化问题基准OptiVerse,并利用该基准来评估和改进LLM的优化能力。通过对LLM在OptiVerse上的表现进行错误分析,找出其在建模和逻辑推理方面的不足,并提出相应的改进方法。

技术框架:OptiVerse基准包含1000个问题,涵盖随机优化、动态优化、博弈优化和最优控制四个领域,并分为简单、中等和困难三个难度级别。论文还提出了一个双视角审计代理(Dual-View Auditor Agent),用于提高LLM建模过程的准确性。该代理通过从不同角度审查LLM的建模过程,发现并纠正错误。

关键创新:OptiVerse基准的全面性和多样性是其主要创新点。它不仅涵盖了传统的优化领域,还包括了更具挑战性的随机优化、动态优化、博弈优化和最优控制等领域。此外,双视角审计代理的设计也是一个创新点,它能够有效地提高LLM建模过程的准确性。

关键设计:双视角审计代理的具体实现细节未知,但可以推测其可能包含两个独立的LLM或两个不同的推理模块,分别从不同的角度对LLM的建模过程进行审查。其关键设计在于如何有效地整合两个视角的审查结果,以发现并纠正LLM的错误。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使是GPT-5.2和Gemini-3等先进模型在OptiVerse的困难问题上准确率也难以超过27%。通过错误分析发现,建模和逻辑错误是主要瓶颈。提出的双视角审计代理能够有效提高LLM建模过程的准确性,但具体提升幅度未知。

🎯 应用场景

OptiVerse可用于评估和改进LLM在各种实际应用中的优化能力,例如供应链管理、资源分配、金融投资、机器人控制和自动驾驶等。通过提高LLM在复杂优化问题上的求解能力,可以帮助企业和组织更有效地解决实际问题,提高效率和降低成本。

📄 摘要(原文)

While Large Language Models (LLMs) demonstrate remarkable reasoning, complex optimization tasks remain challenging, requiring domain knowledge and robust implementation. However, existing benchmarks focus narrowly on Mathematical Programming and Combinatorial Optimization, hindering comprehensive evaluation. To address this, we introduce OptiVerse, a comprehensive benchmark of 1,000 curated problems spanning neglected domains, including Stochastic Optimization, Dynamic Optimization, Game Optimization, and Optimal Control, across three difficulty levels: Easy, Medium, and Hard. The experiments with 22 LLMs of different sizes reveal sharp performance degradation on hard problems, where even advanced models like GPT-5.2 and Gemini-3 struggle to exceed 27% accuracy. Through error analysis, we identify that modeling & logic errors remain the primary bottleneck. Consequently, we propose a Dual-View Auditor Agent that improves the accuracy of the LLM modeling process without introducing significant time overhead. OptiVerse will serve as a foundational platform for advancing LLMs in solving complex optimization challenges.