BLADE: Benchmark suite for LLM-driven Automated Design and Evolution of iterative optimisation heuristics

📄 arXiv: 2504.20183v1 📥 PDF

作者: Niki van Stein, Anna V. Kononova, Haoran Yin, Thomas Bäck

分类: cs.SE, cs.AI, cs.NE

发布日期: 2025-04-28

备注: 9 pages, accepted at GECCO Workshop 2025


💡 一句话要点

BLADE:用于LLM驱动的迭代优化启发式算法自动设计与演化的基准测试套件

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM 算法自动设计 黑盒优化 基准测试 代码演化 优化启发式算法 自动化算法发现

📋 核心要点

  1. 现有算法自动发现(AAD)方法,特别是优化启发式算法,缺乏鲁棒且标准化的基准测试实践。
  2. BLADE框架通过集成基准问题、实例生成器和文本描述,提供了一个模块化和可扩展的测试平台。
  3. BLADE框架通过实验设置、标准化日志记录和分析工具,实现了对LLM驱动的AAD方法进行系统评估。

📝 摘要(中文)

本文介绍BLADE(用于LLM驱动的自动设计与演化的基准测试套件),这是一个模块化和可扩展的框架,专门用于在连续黑盒优化环境中对LLM驱动的AAD方法进行基准测试。该框架集成了基准问题集合(包括MA-BBOB和SBOX-COST等),以及旨在进行能力导向测试(如泛化、特化和信息利用)的实例生成器和文本描述。BLADE提供灵活的实验设置选项、用于可重复性和公平比较的标准化日志记录,并结合了用于分析AAD过程的方法(例如,代码演化图和各种可视化方法),并通过与IOHanalyser和IOHexplainer等已建立工具的集成,促进与人工设计的基线进行比较。BLADE提供了一个“开箱即用”的解决方案,用于系统地评估LLM驱动的AAD方法。通过两个不同的用例展示了该框架,探索了突变提示策略和函数特化。

🔬 方法详解

问题定义:论文旨在解决LLM驱动的算法自动设计(AAD)领域缺乏标准、鲁棒的基准测试的问题。现有方法难以有效评估LLM生成算法的能力,尤其是在黑盒优化场景下,并且缺乏对AAD过程的深入分析和可解释性。

核心思路:核心思路是构建一个模块化、可扩展的基准测试框架BLADE,该框架集成了多种基准问题、实例生成器和文本描述,能够对LLM驱动的AAD方法进行能力导向的测试,例如泛化、特化和信息利用。通过提供标准化的实验设置、日志记录和分析工具,BLADE旨在促进LLM生成算法的公平比较和深入理解。

技术框架:BLADE框架主要包含以下几个模块: 1. 基准问题集:集成了MA-BBOB、SBOX-COST等多种黑盒优化问题。 2. 实例生成器:根据问题特性生成不同的实例,用于测试算法的泛化能力。 3. 文本描述:提供问题的文本描述,用于引导LLM生成合适的算法。 4. 实验设置:提供灵活的实验配置选项,例如不同的LLM、提示策略等。 5. 日志记录:采用标准化的日志格式,方便结果分析和复现。 6. 分析工具:集成了代码演化图、可视化方法和IOHanalyser/IOHexplainer等工具,用于分析AAD过程和算法性能。

关键创新:BLADE的关键创新在于其模块化和可扩展的设计,以及对LLM驱动的AAD过程的全面分析能力。与现有方法相比,BLADE不仅关注算法的最终性能,还关注算法的设计过程,并提供多种工具来理解和解释LLM的行为。

关键设计:BLADE的关键设计包括: 1. 能力导向的测试:通过设计不同的实例和文本描述,测试LLM在泛化、特化和信息利用方面的能力。 2. 标准化的日志记录:采用JSON格式记录实验结果,方便后续分析。 3. 代码演化图:可视化LLM生成代码的过程,帮助理解LLM的推理过程。 4. 与IOHanalyser/IOHexplainer集成:方便与人工设计的算法进行比较。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过两个用例展示了BLADE框架的应用:一是探索不同的突变提示策略对LLM生成算法的影响;二是研究LLM在函数特化方面的能力。实验结果表明,BLADE框架能够有效地评估LLM生成算法的性能,并为LLM驱动的AAD方法提供有价值的 insights。

🎯 应用场景

该研究成果可应用于自动化算法设计、优化算法选择、以及LLM在科学发现中的应用等领域。BLADE框架能够帮助研究人员系统地评估LLM生成算法的性能,并深入理解LLM在算法设计过程中的行为,从而推动LLM在优化和算法设计领域的应用。

📄 摘要(原文)

The application of Large Language Models (LLMs) for Automated Algorithm Discovery (AAD), particularly for optimisation heuristics, is an emerging field of research. This emergence necessitates robust, standardised benchmarking practices to rigorously evaluate the capabilities and limitations of LLM-driven AAD methods and the resulting generated algorithms, especially given the opacity of their design process and known issues with existing benchmarks. To address this need, we introduce BLADE (Benchmark suite for LLM-driven Automated Design and Evolution), a modular and extensible framework specifically designed for benchmarking LLM-driven AAD methods in a continuous black-box optimisation context. BLADE integrates collections of benchmark problems (including MA-BBOB and SBOX-COST among others) with instance generators and textual descriptions aimed at capability-focused testing, such as generalisation, specialisation and information exploitation. It offers flexible experimental setup options, standardised logging for reproducibility and fair comparison, incorporates methods for analysing the AAD process (e.g., Code Evolution Graphs and various visualisation approaches) and facilitates comparison against human-designed baselines through integration with established tools like IOHanalyser and IOHexplainer. BLADE provides an `out-of-the-box' solution to systematically evaluate LLM-driven AAD approaches. The framework is demonstrated through two distinct use cases exploring mutation prompt strategies and function specialisation.