Meta-Black-Box-Optimization through Offline Q-function Learning

作者: Zeyuan Ma, Zhiguang Cao, Zhou Jiang, Hongshu Guo, Yue-Jiao Gong

分类: cs.NE, cs.LG

发布日期: 2025-05-04

备注: Accepted as poster by ICML 2025

🔗 代码/项目: GITHUB

💡 一句话要点

提出基于离线Q函数学习的元黑盒优化框架Q-Mamba，提升算法配置效率。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 元学习 黑盒优化 离线强化学习 动态算法配置 Q函数学习 Mamba架构 长序列建模

📋 核心要点

现有MetaBBO方法依赖在线学习，效率较低，限制了其在实际问题中的应用。
Q-Mamba通过离线Q函数学习，从预先收集的数据中学习元策略，避免了在线探索的开销。
实验表明，Q-Mamba在性能上与现有方法相当甚至更优，同时显著提升了训练效率。

📝 摘要（中文）

本文提出了一种基于离线学习的元黑盒优化（MetaBBO）框架，称为Q-Mamba，旨在提高MetaBBO的有效性和效率。该框架将动态算法配置（DAC）任务转化为长序列决策过程，并引入有效的Q函数分解机制，以降低复杂算法配置空间中的学习难度。在此基础上，设计了三种新颖的方法，用于从离线数据中元学习DAC策略：首先，提出了一种新颖的收集策略，用于构建具有平衡探索和利用的离线DAC经验数据集；其次，建立了一个基于分解的Q损失，该损失结合了保守Q学习，以促进从离线数据集中的稳定离线学习；为了进一步提高离线学习效率，该工作配备了Mamba架构，该架构通过选择性状态模型和硬件感知并行扫描分别帮助提高长序列学习的有效性和效率。通过广泛的基准测试，观察到Q-Mamba实现了与现有在线/离线基线相比具有竞争力的甚至更优越的性能，同时显着提高了现有在线基线的训练效率。代码已开源。

🔬 方法详解

问题定义：论文旨在解决元黑盒优化（MetaBBO）中在线学习效率低下的问题。现有的MetaBBO方法通常采用强化学习在线学习动态算法配置（DAC）策略，需要大量的在线交互，导致训练时间长，计算成本高。

核心思路：论文的核心思路是将DAC任务转化为长序列决策过程，并利用离线强化学习方法，从预先收集的离线数据集中学习元策略。通过离线学习，避免了在线探索的开销，从而提高了训练效率。同时，引入Q函数分解机制，降低了复杂算法配置空间中的学习难度。

技术框架：Q-Mamba框架主要包含三个阶段：1) 离线数据集构建：采用一种平衡探索和利用的策略收集DAC经验数据；2) 离线Q函数学习：利用分解的Q损失和保守Q学习，从离线数据集中学习DAC策略；3) Mamba架构加速：使用Mamba架构，通过选择性状态模型和硬件感知并行扫描，提高长序列学习的效率。

关键创新：论文的关键创新在于：1) 提出了基于离线学习的MetaBBO框架，有效解决了在线学习效率低下的问题；2) 引入了Q函数分解机制，降低了复杂算法配置空间中的学习难度；3) 采用了Mamba架构，提高了长序列学习的效率。

关键设计：1) 离线数据集构建：采用ε-greedy策略进行探索，并根据算法性能进行数据筛选，保证数据集的质量；2) 分解的Q损失：将Q函数分解为多个子Q函数，分别对应不同的算法配置参数，降低了学习难度；3) 保守Q学习：通过添加一个惩罚项，限制Q函数的取值，避免过估计问题，提高学习的稳定性；4) Mamba架构：利用选择性状态空间模型，对序列中的关键信息进行选择性建模，提高长序列学习的效率。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Q-Mamba在多个基准测试中取得了与现有在线/离线基线相当甚至更优越的性能，同时显著提高了训练效率。例如，在某些任务上，Q-Mamba的训练时间比在线基线缩短了数倍，证明了其在效率方面的优势。

🎯 应用场景

Q-Mamba可应用于各种需要动态算法配置的黑盒优化问题，例如超参数优化、神经网络架构搜索、机器人控制等。该方法能够显著提高算法配置的效率，降低计算成本，加速相关领域的研发进程，具有广泛的应用前景。

📄 摘要（原文）

Recent progress in Meta-Black-Box-Optimization (MetaBBO) has demonstrated that using RL to learn a meta-level policy for dynamic algorithm configuration (DAC) over an optimization task distribution could significantly enhance the performance of the low-level BBO algorithm. However, the online learning paradigms in existing works makes the efficiency of MetaBBO problematic. To address this, we propose an offline learning-based MetaBBO framework in this paper, termed Q-Mamba, to attain both effectiveness and efficiency in MetaBBO. Specifically, we first transform DAC task into long-sequence decision process. This allows us further introduce an effective Q-function decomposition mechanism to reduce the learning difficulty within the intricate algorithm configuration space. Under this setting, we propose three novel designs to meta-learn DAC policy from offline data: we first propose a novel collection strategy for constructing offline DAC experiences dataset with balanced exploration and exploitation. We then establish a decomposition-based Q-loss that incorporates conservative Q-learning to promote stable offline learning from the offline dataset. To further improve the offline learning efficiency, we equip our work with a Mamba architecture which helps long-sequence learning effectiveness and efficiency by selective state model and hardware-aware parallel scan respectively. Through extensive benchmarking, we observe that Q-Mamba achieves competitive or even superior performance to prior online/offline baselines, while significantly improving the training efficiency of existing online baselines. We provide sourcecodes of Q-Mamba at https://github.com/MetaEvo/Q-Mamba.

Meta-Black-Box-Optimization through Offline Q-function Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理