Code World Models for Parameter Control in Evolutionary Algorithms

作者: Camilo Chacón Sartori, Guillem Rodríguez Corominas

分类: cs.LG, cs.NE

发布日期: 2026-02-28

💡 一句话要点

利用LLM构建代码世界模型，实现进化算法参数自适应控制

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 进化算法 参数控制 大型语言模型 代码世界模型 组合优化

📋 核心要点

现有进化算法的参数控制方法缺乏对优化器行为的有效建模，导致在复杂问题上性能不佳。
利用大型语言模型（LLM）学习优化器的行为，并合成代码世界模型（CWM）来预测优化过程的动态。
实验表明，基于CWM的贪婪策略在多个优化问题上显著优于传统方法和强化学习方法。

📝 摘要（中文）

本文将代码世界模型（CWMs）扩展到随机组合优化领域。CWMs是由LLM合成的Python程序，用于预测环境动态。给定(1+1)-RLS_k的次优轨迹，LLM合成优化器动态的模拟器；然后，通过对该模拟器进行贪婪规划，选择每一步的突变强度k。在LeadingOnes和OneMax问题上，CWM贪婪策略的性能达到理论最优策略的6%以内，且无需观察最优策略轨迹。在Jump_k问题上，自适应基线全部失效（成功率为0%），而CWM贪婪策略实现了100%的成功率，且无需使用关于gap参数的oracle知识的收集策略。在没有闭式模型的NK-Landscape上，当提示包含经验转移统计时，CWM贪婪策略优于所有基线（36.94 vs. 36.32；p<0.001）。CWM在样本效率（200条离线轨迹 vs. 500个在线episode）、成功率（100% vs. 58%）和泛化能力（k=3时：78% vs. 0%）方面也优于DQN。鲁棒性实验证实了5次独立运行中的稳定合成。

🔬 方法详解

问题定义：论文旨在解决进化算法中参数控制的问题，特别是突变强度k的选择。现有方法，如自适应参数控制，在面对具有欺骗性的优化问题（如Jump_k）时，容易陷入局部最优，导致性能显著下降。此外，对于复杂的优化问题（如NK-Landscape），由于缺乏闭式模型，传统方法难以进行有效的参数调整。

核心思路：论文的核心思路是利用大型语言模型（LLM）学习进化算法（特别是(1+1)-RLS_k）的行为，并将其编码成一个可执行的Python程序，即代码世界模型（CWM）。该CWM能够模拟优化器的动态过程，从而允许使用贪婪规划等方法来选择最优的突变强度k。这种方法的核心在于利用LLM的强大建模能力，从次优轨迹中学习优化器的行为模式。

技术框架：整体框架包括以下几个主要阶段：1) 数据收集：收集(1+1)-RLS_k在特定优化问题上的次优轨迹。2) CWM合成：使用LLM，基于收集到的轨迹数据，合成一个Python程序，该程序能够模拟(1+1)-RLS_k的动态过程。3) 贪婪规划：使用合成的CWM，通过贪婪搜索的方式，选择每一步最优的突变强度k。4) 评估：在不同的优化问题上评估CWM-greedy策略的性能。

关键创新：最重要的技术创新点在于将LLM引入到进化算法的参数控制中，利用LLM强大的建模能力，从数据中学习优化器的行为模式，并将其编码成一个可执行的模拟器。与传统方法相比，该方法无需人工设计复杂的模型，而是通过数据驱动的方式自动学习。此外，该方法还能够处理没有闭式模型的复杂优化问题。

关键设计：在CWM合成阶段，论文使用了特定的prompt来引导LLM生成高质量的模拟器。Prompt中包含了关于优化问题和(1+1)-RLS_k的信息，以及经验转移统计（对于NK-Landscape）。在贪婪规划阶段，论文使用了一步贪婪搜索，即在每一步选择能够最大化预期收益的突变强度k。论文没有详细说明损失函数或网络结构，因为CWM是由LLM直接合成的Python程序，而不是通过训练神经网络得到的。

🖼️ 关键图片

📊 实验亮点

实验结果表明，CWM-greedy策略在LeadingOnes、OneMax和Jump_k等问题上表现出色。在Jump_k问题上，CWM-greedy实现了100%的成功率，而所有自适应基线均失败。在NK-Landscape上，CWM-greedy的性能显著优于所有基线（36.94 vs. 36.32；p<0.001）。此外，CWM在样本效率、成功率和泛化能力方面也优于DQN。

🎯 应用场景

该研究成果可应用于各种组合优化问题，例如旅行商问题、调度问题、资源分配问题等。通过利用LLM自动学习优化器的行为，可以实现更智能、更高效的参数控制，从而提高优化算法的性能。此外，该方法还可以用于设计新的优化算法，以及对现有优化算法进行改进。

📄 摘要（原文）

Can an LLM learn how an optimizer behaves -- and use that knowledge to control it? We extend Code World Models (CWMs), LLM-synthesized Python programs that predict environment dynamics, from deterministic games to stochastic combinatorial optimization. Given suboptimal trajectories of $(1{+}1)$-$\text{RLS}_k$, the LLM synthesizes a simulator of the optimizer's dynamics; greedy planning over this simulator then selects the mutation strength $k$ at each step. On \lo{} and \onemax{}, CWM-greedy performs within 6\% of the theoretically optimal policy -- without ever seeing optimal-policy trajectories. On \jump{$_k$}, where a deceptive valley causes all adaptive baselines to fail (0\% success rate), CWM-greedy achieves 100\% success rate -- without any collection policy using oracle knowledge of the gap parameter. On the NK-Landscape, where no closed-form model exists, CWM-greedy outperforms all baselines across fifteen independently generated instances ($36.94$ vs.\ $36.32$; $p<0.001$) when the prompt includes empirical transition statistics. The CWM also outperforms DQN in sample efficiency (200 offline trajectories vs.\ 500 online episodes), success rate (100\% vs.\ 58\%), and generalization ($k{=}3$: 78\% vs.\ 0\%). Robustness experiments confirm stable synthesis across 5 independent runs.

Code World Models for Parameter Control in Evolutionary Algorithms

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理