PathWise: Planning through World Model for Automated Heuristic Design via Self-Evolving LLMs
作者: Oguzhan Gungordu, Siheng Xiong, Faramarz Fekri
分类: cs.AI, cs.CL
发布日期: 2026-01-28
💡 一句话要点
PathWise:利用世界模型和自进化LLM进行启发式自动设计
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 启发式自动设计 大型语言模型 组合优化 序列决策 世界模型
📋 核心要点
- 现有AHD框架依赖固定的进化规则和静态提示模板,导致启发式生成目光短浅,评估冗余,且难以推理新启发式的推导方式。
- PathWise框架将启发式生成建模为序列决策过程,利用蕴含图记忆搜索轨迹,实现状态感知的启发式进化。
- 实验表明,PathWise在多种组合优化问题上能更快收敛到更优的启发式方法,并能泛化到不同的LLM骨干网络。
📝 摘要(中文)
本文提出了一种名为PathWise的多智能体推理框架,用于通过自进化大型语言模型(LLM)进行启发式自动设计(AHD)。该框架将启发式生成过程建模为序列决策问题,利用蕴含图作为紧凑的、有状态的搜索轨迹记忆。PathWise允许系统延续过去的决策,并在不同代之间重用或避免推导信息。策略智能体规划进化动作,世界模型智能体根据这些动作生成启发式展开,评论智能体提供路由反馈,总结先前步骤的经验教训,从而将基于LLM的AHD从试错进化转变为通过推理进行状态感知规划。在各种组合优化问题(COP)上的实验表明,PathWise能够更快地收敛到更好的启发式方法,泛化到不同的LLM骨干网络,并扩展到更大的问题规模。
🔬 方法详解
问题定义:论文旨在解决组合优化问题(COPs)的启发式自动设计(AHD)问题。现有基于大型语言模型(LLM)的AHD方法存在以下痛点:依赖固定的进化规则和静态提示模板,导致启发式生成过程缺乏全局视野,容易陷入局部最优;评估过程冗余,浪费计算资源;缺乏对启发式推导过程的有效推理能力,难以生成高质量的启发式方法。
核心思路:PathWise的核心思路是将启发式生成过程建模为一个序列决策问题,通过引入世界模型和多智能体协作,实现状态感知的启发式进化。具体来说,系统维护一个蕴含图,用于记录搜索轨迹和历史决策,并利用策略智能体规划进化动作,世界模型智能体生成启发式展开,评论智能体提供反馈,从而引导LLM生成更有效的启发式方法。
技术框架:PathWise框架包含以下主要模块:1) 蕴含图:作为系统的记忆,记录启发式生成过程中的状态和决策。2) 策略智能体:负责规划进化动作,例如选择要使用的算子或修改启发式表达式。3) 世界模型智能体:根据策略智能体的动作,生成启发式展开,即模拟启发式方法在实际问题上的表现。4) 评论智能体:分析世界模型智能体的输出,提供反馈,指导策略智能体进行下一步决策。整个流程通过迭代的方式进行,不断优化启发式方法。
关键创新:PathWise最重要的技术创新点在于将启发式生成建模为序列决策问题,并引入了世界模型和多智能体协作机制。与现有方法相比,PathWise能够更好地利用历史信息,进行状态感知的规划,从而避免了盲目的试错,提高了启发式生成的效率和质量。此外,PathWise的框架具有良好的可扩展性,可以方便地集成不同的LLM骨干网络和进化算子。
关键设计:PathWise的关键设计包括:1) 蕴含图的构建和维护:如何有效地表示和更新启发式生成过程中的状态和决策。2) 策略智能体的设计:如何选择合适的进化动作,平衡探索和利用。3) 世界模型智能体的训练:如何准确地模拟启发式方法在实际问题上的表现。4) 评论智能体的设计:如何提供有用的反馈,指导策略智能体进行下一步决策。论文中可能涉及具体的参数设置、损失函数、网络结构等技术细节,但摘要中未明确提及,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,PathWise在各种组合优化问题上能够更快地收敛到更好的启发式方法,并且能够泛化到不同的LLM骨干网络。具体来说,PathWise在某些问题上的性能优于现有的AHD方法,并且能够扩展到更大的问题规模。具体的性能数据和提升幅度在摘要中未明确提及,属于未知信息。
🎯 应用场景
PathWise框架具有广泛的应用前景,可以应用于各种组合优化问题,例如旅行商问题、车辆路径问题、调度问题等。该框架可以帮助领域专家自动设计高效的启发式算法,从而提高问题求解的效率和质量。此外,PathWise还可以应用于其他需要进行策略规划的领域,例如机器人控制、游戏AI等。
📄 摘要(原文)
Large Language Models (LLMs) have enabled automated heuristic design (AHD) for combinatorial optimization problems (COPs), but existing frameworks' reliance on fixed evolutionary rules and static prompt templates often leads to myopic heuristic generation, redundant evaluations, and limited reasoning about how new heuristics should be derived. We propose a novel multi-agent reasoning framework, referred to as Planning through World Model for Automated Heuristic Design via Self-Evolving LLMs (PathWise), which formulates heuristic generation as a sequential decision process over an entailment graph serving as a compact, stateful memory of the search trajectory. This approach allows the system to carry forward past decisions and reuse or avoid derivation information across generations. A policy agent plans evolutionary actions, a world model agent generates heuristic rollouts conditioned on those actions, and critic agents provide routed reflections summarizing lessons from prior steps, shifting LLM-based AHD from trial-and-error evolution toward state-aware planning through reasoning. Experiments across diverse COPs show that PathWise converges faster to better heuristics, generalizes across different LLM backbones, and scales to larger problem sizes.