NEMO: Execution-Aware Optimization Modeling via Autonomous Coding Agents

📄 arXiv: 2601.21372v1 📥 PDF

作者: Yang Song, Anoushka Vyas, Zirui Wei, Sina Khoshfetrat Pakazad, Henrik Ohlsson, Graham Neubig

分类: cs.AI

发布日期: 2026-01-29


💡 一句话要点

NEMO:通过自主编码代理实现执行感知的优化建模

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 优化建模 自主编码代理 自然语言处理 代码生成 执行感知

📋 核心要点

  1. 现有优化建模方法依赖特定LLM或定制代理,存在脆弱、复杂且易生成无效代码的问题。
  2. NEMO通过与自主编码代理(ACA)交互,构建可执行代码,实现自动验证和迭代优化。
  3. 实验表明,NEMO在多个优化基准上达到SOTA,验证了执行感知代理架构的有效性。

📝 摘要(中文)

本文提出了NEMO,一个将决策问题的自然语言描述转换为可执行的数学优化实现的系统,它能与用户协作或自主运行。现有方法通常依赖于专门的大型语言模型(LLM)或定制的、特定于任务的代理。这些方法通常脆弱、复杂,并且经常生成语法无效或不可执行的代码。NEMO的核心在于与自主编码代理(ACA)的远程交互,将其视为类似于基于API与LLM交互的一流抽象。这种设计使得围绕ACA构建更高层系统成为可能,从而构建、巩固和迭代地改进任务规范。由于ACA在沙盒环境中执行,因此NEMO生成的代码在构建时即可执行,从而实现自动验证和修复。在此基础上,我们引入了与ACA之间的新型协调模式,包括独立生成的优化器和模拟器实现之间的非对称验证循环(作为高级验证机制)、用于经验重用的外部存储器,以及通过最小贝叶斯风险(MBR)解码和自洽性实现的鲁棒性增强。我们在九个已建立的优化基准上评估了NEMO。如图1所示,它在大多数任务上实现了最先进的性能,并在几个数据集上取得了显著的优势,证明了执行感知代理架构在自动优化建模方面的强大能力。

🔬 方法详解

问题定义:论文旨在解决将自然语言描述的决策问题自动转化为可执行的数学优化模型的问题。现有方法,如依赖特定领域的大型语言模型或定制代理,存在代码生成质量不高、易出错、难以调试和验证等痛点。这些方法通常需要大量特定领域的训练数据,泛化能力有限,且难以适应新的优化问题。

核心思路:NEMO的核心思路是将优化建模过程分解为与多个自主编码代理(ACA)的交互。每个ACA负责特定的任务,例如编写优化器代码或模拟器代码。通过将LLM作为API进行调用,并利用沙盒环境执行ACA生成的代码,NEMO可以实现代码的自动验证和修复,从而提高代码的质量和可靠性。这种模块化的设计也使得系统更易于扩展和维护。

技术框架:NEMO的整体架构包含以下几个主要模块:1) 自然语言输入模块,负责接收用户对优化问题的自然语言描述;2) 任务分解模块,将自然语言描述分解为多个子任务,分配给不同的ACA;3) 自主编码代理(ACA),负责根据分配的任务生成相应的代码;4) 执行环境,在沙盒环境中执行ACA生成的代码;5) 验证模块,对执行结果进行验证,并根据验证结果对代码进行修复;6) 协调模块,负责协调各个ACA之间的工作,例如,优化器ACA和模拟器ACA之间的非对称验证循环;7) 外部存储器,用于存储经验,以便ACA可以重用之前的代码。

关键创新:NEMO的关键创新在于:1) 将自主编码代理(ACA)作为一等公民,通过与ACA的远程交互来实现优化建模;2) 利用沙盒环境执行ACA生成的代码,实现代码的自动验证和修复;3) 引入了与ACA之间的新型协调模式,例如,非对称验证循环、外部存储器和最小贝叶斯风险(MBR)解码。这些创新使得NEMO能够生成高质量、可执行的优化模型。

关键设计:NEMO的关键设计包括:1) ACA的设计,包括ACA的任务分配、代码生成策略和验证策略;2) 协调机制的设计,包括非对称验证循环的实现、外部存储器的使用和MBR解码的实现;3) 验证模块的设计,包括验证指标的选择和代码修复策略的制定。具体参数设置和损失函数等细节在论文中未详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

NEMO在九个优化基准测试中表现出色,在大多数任务上取得了最先进的性能。在某些数据集上,NEMO的性能提升幅度显著,证明了其在自动优化建模方面的强大能力。具体的性能数据和对比基线在论文中有详细展示,但这里不赘述。

🎯 应用场景

NEMO可应用于各种优化问题的自动建模,例如供应链优化、资源分配、投资组合优化等。它能降低优化建模的门槛,使非专业人士也能快速构建和求解复杂的优化问题。NEMO还可用于教育领域,帮助学生更好地理解优化建模的概念和方法。未来,NEMO有望成为一个通用的优化建模平台,为各行各业提供强大的决策支持。

📄 摘要(原文)

In this paper, we present NEMO, a system that translates Natural-language descriptions of decision problems into formal Executable Mathematical Optimization implementations, operating collaboratively with users or autonomously. Existing approaches typically rely on specialized large language models (LLMs) or bespoke, task-specific agents. Such methods are often brittle, complex and frequently generating syntactically invalid or non-executable code. NEMO instead centers on remote interaction with autonomous coding agents (ACAs), treated as a first-class abstraction analogous to API-based interaction with LLMs. This design enables the construction of higher-level systems around ACAs that structure, consolidate, and iteratively refine task specifications. Because ACAs execute within sandboxed environments, code produced by NEMO is executable by construction, allowing automated validation and repair. Building on this, we introduce novel coordination patterns with and across ACAs, including asymmetric validation loops between independently generated optimizer and simulator implementations (serving as a high-level validation mechanism), external memory for experience reuse, and robustness enhancements via minimum Bayes risk (MBR) decoding and self-consistency. We evaluate NEMO on nine established optimization benchmarks. As depicted in Figure 1, it achieves state-of-the-art performance on the majority of tasks, with substantial margins on several datasets, demonstrating the power of execution-aware agentic architectures for automated optimization modeling.