An Evolutionary Framework for Automatic Optimization Benchmark Generation via Large Language Models

📄 arXiv: 2601.12723v1 📥 PDF

作者: Yuhiro Ono, Tomohiro Harada, Yukiya Miura

分类: cs.NE, cs.AI

发布日期: 2026-01-19


💡 一句话要点

提出进化框架以自动生成优化基准测试

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 优化基准测试 大型语言模型 进化算法 算法性能评估 自动化机器学习

📋 核心要点

  1. 现有的优化基准测试无法有效捕捉真实世界问题的多样性,且基于真实问题的基准构建成本高且复杂。
  2. 本文提出了一种利用大型语言模型的进化自动基准生成框架,能够灵活生成多样化的优化问题。
  3. 实验表明,所生成的基准问题使得目标算法在超过80%的试验中优于比较算法,显示出显著的性能提升。

📝 摘要(中文)

优化基准测试在评估算法性能中起着基础性作用;然而,现有的人工基准往往无法捕捉真实问题结构的多样性和不规则性,而基于真实问题的基准构建成本高且困难。为了解决这些挑战,本文提出了一种进化自动基准生成框架,利用大型语言模型(LLM)作为生成操作符,称为LLM驱动的进化基准生成器(LLM-EBG)。在该框架中,LLM作为进化操作符,在灵活、表达性强的表示空间中生成和演化基准问题。通过案例研究,我们生成了无约束的单目标连续最小化问题,旨在引发遗传算法(GA)与差分进化(DE)之间显著的性能差异。实验结果表明,LLM-EBG成功生成的基准问题中,指定的目标算法在超过80%的试验中始终优于比较算法。

🔬 方法详解

问题定义:本文旨在解决现有优化基准测试无法有效反映真实问题多样性的问题。现有方法往往依赖于人工设计,缺乏灵活性和适应性。

核心思路:论文的核心思路是利用大型语言模型(LLM)作为进化操作符,自动生成和演化优化基准问题。通过这种方式,能够在一个灵活的表示空间中生成多样化的基准问题,反映不同算法的搜索行为。

技术框架:整体架构包括LLM作为生成器,生成基准问题的表示模块,以及演化算法模块。生成器负责生成初始问题,演化模块则通过迭代优化生成的基准问题。

关键创新:最重要的技术创新在于将LLM引入基准生成过程,使得基准问题的生成不仅高效且具有多样性。这与传统的人工设计方法形成鲜明对比,后者往往缺乏灵活性。

关键设计:在参数设置上,LLM的训练数据和生成策略至关重要。损失函数设计用于优化生成问题的特性,以确保生成的问题能够有效区分不同算法的性能。

📊 实验亮点

实验结果显示,LLM-EBG生成的基准问题使得目标算法在超过80%的试验中优于比较算法,表明该框架在生成有效优化问题方面的成功。此外,探索性地形分析显示,针对GA的基准对变量缩放高度敏感,反映了不同优化算法的内在搜索行为。

🎯 应用场景

该研究的潜在应用领域包括优化算法的性能评估、算法选择和自动化机器学习等。通过生成多样化的基准问题,研究者和工程师可以更好地理解和比较不同优化算法的表现,推动算法的进一步发展与应用。

📄 摘要(原文)

Optimization benchmarks play a fundamental role in assessing algorithm performance; however, existing artificial benchmarks often fail to capture the diversity and irregularity of real-world problem structures, while benchmarks derived from real-world problems are costly and difficult to construct. To address these challenges, we propose an evolutionary automatic benchmark generation framework that leverages a large language model (LLM) as a generative operator, termed the LLM-driven evolutionary benchmark generator (LLM-EBG). In this framework, the LLM serves as an evolutionary operator that generates and evolves benchmark problems within a flexible, expressive representation space. As a case study, we generate unconstrained single-objective continuous minimization problems represented as mathematical expressions designed to induce significant performance differences between a genetic algorithm (GA) and differential evolution (DE). Experimental results show that LLM-EBG successfully produces benchmark problems in which the designated target algorithm consistently outperforms the comparative algorithm in more than 80\% of trials. Furthermore, exploratory landscape analysis reveals that benchmarks favoring GA are highly sensitive to variable scaling, demonstrating that the proposed framework can generate problems with distinct geometric characteristics that reflect the intrinsic search behaviors of different optimization algorithms.