Back to the Beginning of Heuristic Design: Bridging Code and Knowledge with LLMs

📄 arXiv: 2605.06123v1 📥 PDF

作者: Nguyen Viet Tuan Kiet, Bui Dinh Pham, Dao Van Tung, Tran Cong Dao, Huynh Thi Thanh Binh

分类: cs.AI

发布日期: 2026-05-07

备注: 75 pages


💡 一句话要点

提出基于知识优先的自动启发式设计框架,通过LLM实现组合优化中代码与知识的深度融合。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动启发式设计 组合优化 大语言模型 知识表示 算法演化 可解释人工智能

📋 核心要点

  1. 现有自动启发式设计多采用“自下而上”范式,过度依赖代码执行反馈,导致习得的经验难以跨问题迁移且缺乏可解释性。
  2. 论文提出“知识优先”的自上而下范式,将知识作为搜索主体,代码仅用于实例化验证,实现了知识的显式化与高复用性。
  3. 实验证明该方法在组合优化及其他任务中显著提升了发现效率与泛化能力,且与传统代码中心策略结合能产生协同效应。

📝 摘要(中文)

大语言模型(LLMs)近期推动了组合优化(CO)中自动启发式设计(AHD)的发展,即通过迭代提出、评估和优化候选启发式算法。现有方法多采用“自下而上”的范式,即从低级代码实现中提取经验以指导后续迭代。本文认为该视角存在局限,并引入了互补的“自上而下”视角:将知识作为搜索的核心对象,代码仅作为实例化和测试的工具,从而使习得的经验具有显式性和跨问题可复用性。我们通过统计学习视角形式化了这一转变,揭示了其中的失真-压缩权衡,并将其应用于基于种群和基于树的AHD框架中。实验表明,知识优先搜索提升了发现效率、迁移能力和泛化性,且与代码中心策略结合可获得进一步增益。研究结果表明,AHD的进步依赖于构建和演化可解释的假设,使其价值超越单一搜索轨迹。

🔬 方法详解

问题定义:现有自动启发式设计(AHD)主要通过LLM生成代码并根据执行结果进行迭代,这种“自下而上”的方法将代码视为搜索对象,导致习得的启发式算法往往是特定于问题的,难以提取出通用的、可解释的领域知识。

核心思路:论文提出“知识优先”的范式,将知识(如算法逻辑、策略原则)作为搜索的核心对象,代码仅作为实例化和测试知识的手段。这种设计旨在通过显式建模知识,解决代码搜索中存在的失真与压缩权衡问题。

技术框架:框架包含知识提取、知识实例化(代码生成)、评估与反馈三个阶段。系统在搜索过程中维护一个知识库,LLM基于知识库中的假设生成代码,通过执行反馈更新知识库,而非仅仅更新代码片段。

关键创新:最重要的创新在于将AHD从“代码搜索”转向“知识搜索”。通过统计学习视角形式化了知识的压缩与失真,使得系统能够识别并保留具有跨轨迹价值的通用启发式规则,而非仅仅拟合特定实例的性能。

关键设计:采用了基于种群和基于树的搜索策略,通过引入知识表示层,将启发式算法抽象为可操作的逻辑单元。在损失函数设计上,不仅考虑执行性能,还引入了对知识可解释性和泛化性的度量,确保演化过程中的知识积累。

📊 实验亮点

实验表明,知识优先搜索在多个组合优化基准测试中表现优于纯代码中心的方法。在发现效率上,该方法能更快收敛至最优解;在泛化性测试中,习得的知识在未见过的实例分布上表现出更强的鲁棒性。此外,将知识优先策略与传统代码演化策略结合,在复杂任务中实现了性能的进一步提升,验证了双重策略的协同效应。

🎯 应用场景

该方法适用于复杂的组合优化问题,如旅行商问题(TSP)、车辆路径规划(VRP)及各类调度问题。其核心价值在于将领域专家的隐性经验转化为可复用的显式知识,在机器人路径规划、物流配送优化及自动化算法设计领域具有广泛的应用前景,能显著降低针对新任务开发启发式算法的成本。

📄 摘要(原文)

Large language models (LLMs) have recently advanced automatic heuristic design (AHD) for combinatorial optimization (CO), where candidate heuristics are iteratively proposed, evaluated, and refined. Most existing approaches search over executable programs and distill insights from execution feedback to guide later iterations. Because this process moves from low-level implementations to high-level principles, we refer to it as a bottom-up paradigm. We argue that this view is incomplete and introduce a complementary top-down perspective: knowledge becomes the primary search object and code merely instantiates and tests it, making what is learned explicit and reusable across problems and trajectories. We formalize this shift through a statistical-learning view that exposes a distortion--compression trade-off, and instantiate it in both population-based and tree-based AHD frameworks. Across CO and tasks beyond it, knowledge-first search improves discovery efficiency, transfer, and generalization, often outperforming code-centric pipelines, while combining both strategies yields further gains. Our results suggest that progress in AHD depends on iteratively constructing and evolving interpretable hypotheses that retain value beyond a single search trajectory.