Code World Models for Parameter Control in Evolutionary Algorithms
作者: Camilo Chacón Sartori, Guillem Rodríguez Corominas
分类: cs.LG, cs.NE
发布日期: 2026-02-28
💡 一句话要点
利用LLM构建代码世界模型,实现进化算法参数自适应控制
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 进化算法 参数控制 大型语言模型 代码世界模型 组合优化
📋 核心要点
- 现有进化算法的参数控制方法缺乏对优化器行为的有效建模,导致在复杂问题上性能不佳。
- 利用大型语言模型(LLM)学习优化器的行为,并合成代码世界模型(CWM)来预测优化过程的动态。
- 实验表明,基于CWM的贪婪策略在多个优化问题上显著优于传统方法和强化学习方法。
📝 摘要(中文)
本文将代码世界模型(CWMs)扩展到随机组合优化领域。CWMs是由LLM合成的Python程序,用于预测环境动态。给定(1+1)-RLS_k的次优轨迹,LLM合成优化器动态的模拟器;然后,通过对该模拟器进行贪婪规划,选择每一步的突变强度k。在LeadingOnes和OneMax问题上,CWM贪婪策略的性能达到理论最优策略的6%以内,且无需观察最优策略轨迹。在Jump_k问题上,自适应基线全部失效(成功率为0%),而CWM贪婪策略实现了100%的成功率,且无需使用关于gap参数的oracle知识的收集策略。在没有闭式模型的NK-Landscape上,当提示包含经验转移统计时,CWM贪婪策略优于所有基线(36.94 vs. 36.32;p<0.001)。CWM在样本效率(200条离线轨迹 vs. 500个在线episode)、成功率(100% vs. 58%)和泛化能力(k=3时:78% vs. 0%)方面也优于DQN。鲁棒性实验证实了5次独立运行中的稳定合成。
🔬 方法详解
问题定义:论文旨在解决进化算法中参数控制的问题,特别是突变强度k的选择。现有方法,如自适应参数控制,在面对具有欺骗性的优化问题(如Jump_k)时,容易陷入局部最优,导致性能显著下降。此外,对于复杂的优化问题(如NK-Landscape),由于缺乏闭式模型,传统方法难以进行有效的参数调整。
核心思路:论文的核心思路是利用大型语言模型(LLM)学习进化算法(特别是(1+1)-RLS_k)的行为,并将其编码成一个可执行的Python程序,即代码世界模型(CWM)。该CWM能够模拟优化器的动态过程,从而允许使用贪婪规划等方法来选择最优的突变强度k。这种方法的核心在于利用LLM的强大建模能力,从次优轨迹中学习优化器的行为模式。
技术框架:整体框架包括以下几个主要阶段:1) 数据收集:收集(1+1)-RLS_k在特定优化问题上的次优轨迹。2) CWM合成:使用LLM,基于收集到的轨迹数据,合成一个Python程序,该程序能够模拟(1+1)-RLS_k的动态过程。3) 贪婪规划:使用合成的CWM,通过贪婪搜索的方式,选择每一步最优的突变强度k。4) 评估:在不同的优化问题上评估CWM-greedy策略的性能。
关键创新:最重要的技术创新点在于将LLM引入到进化算法的参数控制中,利用LLM强大的建模能力,从数据中学习优化器的行为模式,并将其编码成一个可执行的模拟器。与传统方法相比,该方法无需人工设计复杂的模型,而是通过数据驱动的方式自动学习。此外,该方法还能够处理没有闭式模型的复杂优化问题。
关键设计:在CWM合成阶段,论文使用了特定的prompt来引导LLM生成高质量的模拟器。Prompt中包含了关于优化问题和(1+1)-RLS_k的信息,以及经验转移统计(对于NK-Landscape)。在贪婪规划阶段,论文使用了一步贪婪搜索,即在每一步选择能够最大化预期收益的突变强度k。论文没有详细说明损失函数或网络结构,因为CWM是由LLM直接合成的Python程序,而不是通过训练神经网络得到的。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CWM-greedy策略在LeadingOnes、OneMax和Jump_k等问题上表现出色。在Jump_k问题上,CWM-greedy实现了100%的成功率,而所有自适应基线均失败。在NK-Landscape上,CWM-greedy的性能显著优于所有基线(36.94 vs. 36.32;p<0.001)。此外,CWM在样本效率、成功率和泛化能力方面也优于DQN。
🎯 应用场景
该研究成果可应用于各种组合优化问题,例如旅行商问题、调度问题、资源分配问题等。通过利用LLM自动学习优化器的行为,可以实现更智能、更高效的参数控制,从而提高优化算法的性能。此外,该方法还可以用于设计新的优化算法,以及对现有优化算法进行改进。
📄 摘要(原文)
Can an LLM learn how an optimizer behaves -- and use that knowledge to control it? We extend Code World Models (CWMs), LLM-synthesized Python programs that predict environment dynamics, from deterministic games to stochastic combinatorial optimization. Given suboptimal trajectories of $(1{+}1)$-$\text{RLS}_k$, the LLM synthesizes a simulator of the optimizer's dynamics; greedy planning over this simulator then selects the mutation strength $k$ at each step. On \lo{} and \onemax{}, CWM-greedy performs within 6\% of the theoretically optimal policy -- without ever seeing optimal-policy trajectories. On \jump{$_k$}, where a deceptive valley causes all adaptive baselines to fail (0\% success rate), CWM-greedy achieves 100\% success rate -- without any collection policy using oracle knowledge of the gap parameter. On the NK-Landscape, where no closed-form model exists, CWM-greedy outperforms all baselines across fifteen independently generated instances ($36.94$ vs.\ $36.32$; $p<0.001$) when the prompt includes empirical transition statistics. The CWM also outperforms DQN in sample efficiency (200 offline trajectories vs.\ 500 online episodes), success rate (100\% vs.\ 58\%), and generalization ($k{=}3$: 78\% vs.\ 0\%). Robustness experiments confirm stable synthesis across 5 independent runs.