Machine Learning Algorithms for Improving Black Box Optimization Solvers

📄 arXiv: 2509.25592v1 📥 PDF

作者: Morteza Kimiaei, Vyacheslav Kungurtsev

分类: cs.LG

发布日期: 2025-09-29

备注: 74 pages


💡 一句话要点

综述:机器学习算法提升黑盒优化求解器性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 黑盒优化 机器学习 强化学习 无导数优化 替代模型 贝叶斯优化 元学习

📋 核心要点

  1. 黑盒优化面临高维、噪声和混合整数等挑战,传统方法难以有效处理。
  2. 利用机器学习和强化学习,构建替代模型、自适应更新策略和动态算子配置,提升优化性能。
  3. 综述多种基于ML/RL的BBO算法,并回顾相关基准测试,展示了其在实际优化问题中的潜力。

📝 摘要(中文)

黑盒优化(BBO)处理的是目标函数只能通过代价高昂的查询访问,且没有梯度或显式结构的问题。经典的无导数方法——线搜索、直接搜索和基于模型求解器(如贝叶斯优化)是BBO的支柱,但通常在高维、噪声或混合整数设置中表现不佳。最近的研究进展使用机器学习(ML)和强化学习(RL)来增强BBO:ML提供富有表现力的替代模型、自适应更新、元学习组合和生成模型,而RL支持动态算子配置、鲁棒性和跨任务的元优化。本文综述了这些进展,涵盖了具有模块化模型优化框架(mlrMBO)的神经网络、零阶自适应动量方法(ZO-AdaMM)、自动BBO(ABBO)、分布式块状优化(DiBB)、基于分区的贝叶斯优化(SPBOpt)、基于Transformer的优化器(B2Opt)、基于扩散模型的BBO、用于差分进化的替代辅助RL(Surr-RLDE)、鲁棒BBO(RBO)、具有相对熵的坐标上升模型优化(CAS-MORE)、对数障碍随机梯度下降(LB-SGD)、黑盒策略改进(PIBB)和具有Mamba骨干的离线Q学习(Q-Mamba)等代表性算法。我们还回顾了NeurIPS 2020 BBO挑战赛和MetaBox框架等基准测试工作。总的来说,我们强调了ML和RL如何将经典的非精确求解器转变为更具可扩展性、鲁棒性和适应性的现实世界优化框架。

🔬 方法详解

问题定义:黑盒优化问题是指目标函数没有显式表达式或梯度信息,只能通过查询来获取函数值。现有方法,如线搜索、直接搜索和贝叶斯优化等,在高维、噪声或混合整数等复杂场景下,效率和效果都难以保证。

核心思路:利用机器学习(ML)和强化学习(RL)技术,构建目标函数的替代模型,学习自适应的优化策略,并动态配置优化算子。核心在于利用数据驱动的方法来弥补黑盒优化中信息缺失的不足,从而提升优化效率和鲁棒性。

技术框架:整体框架通常包含以下几个主要模块:1)替代模型构建:使用ML算法(如神经网络、高斯过程等)学习目标函数的近似模型。2)优化策略学习:利用RL算法学习如何在替代模型上进行优化,并选择合适的查询点。3)算子配置:动态调整优化算子的参数或组合,以适应不同的优化阶段和问题特性。4)迭代更新:通过不断查询目标函数,更新替代模型和优化策略,逐步逼近最优解。

关键创新:关键创新在于将ML/RL技术与传统黑盒优化方法相结合,实现了以下突破:1)更精确的替代模型:ML模型能够更好地捕捉复杂目标函数的特征。2)更智能的优化策略:RL算法能够学习到更有效的查询策略,避免盲目搜索。3)更灵活的算子配置:动态算子配置能够适应不同的优化阶段和问题特性,提高优化效率。

关键设计:关键设计包括:1)替代模型的选择:根据目标函数的特性选择合适的ML模型,如高斯过程适用于低维问题,神经网络适用于高维问题。2)RL算法的选择:根据优化目标选择合适的RL算法,如策略梯度算法适用于连续动作空间,Q学习算法适用于离散动作空间。3)探索-利用平衡:在查询过程中,需要平衡探索未知区域和利用已知信息,以避免陷入局部最优。

📊 实验亮点

论文综述了多种基于ML/RL的BBO算法,包括mlrMBO、ZO-AdaMM、ABBO、DiBB、SPBOpt、B2Opt、Surr-RLDE、RBO、CAS-MORE、LB-SGD、PIBB和Q-Mamba等。同时,论文还回顾了NeurIPS 2020 BBO挑战赛和MetaBox框架等基准测试工作,为研究者提供了全面的参考。

🎯 应用场景

该研究成果可广泛应用于工程设计、超参数优化、材料科学、药物发现等领域。通过结合机器学习和强化学习,能够更有效地解决实际应用中的复杂黑盒优化问题,降低优化成本,提高优化效率,加速产品研发和技术创新。

📄 摘要(原文)

Black-box optimization (BBO) addresses problems where objectives are accessible only through costly queries without gradients or explicit structure. Classical derivative-free methods -- line search, direct search, and model-based solvers such as Bayesian optimization -- form the backbone of BBO, yet often struggle in high-dimensional, noisy, or mixed-integer settings. Recent advances use machine learning (ML) and reinforcement learning (RL) to enhance BBO: ML provides expressive surrogates, adaptive updates, meta-learning portfolios, and generative models, while RL enables dynamic operator configuration, robustness, and meta-optimization across tasks. This paper surveys these developments, covering representative algorithms such as NNs with the modular model-based optimization framework (mlrMBO), zeroth-order adaptive momentum methods (ZO-AdaMM), automated BBO (ABBO), distributed block-wise optimization (DiBB), partition-based Bayesian optimization (SPBOpt), the transformer-based optimizer (B2Opt), diffusion-model-based BBO, surrogate-assisted RL for differential evolution (Surr-RLDE), robust BBO (RBO), coordinate-ascent model-based optimization with relative entropy (CAS-MORE), log-barrier stochastic gradient descent (LB-SGD), policy improvement with black-box (PIBB), and offline Q-learning with Mamba backbones (Q-Mamba). We also review benchmark efforts such as the NeurIPS 2020 BBO Challenge and the MetaBox framework. Overall, we highlight how ML and RL transform classical inexact solvers into more scalable, robust, and adaptive frameworks for real-world optimization.