READY: Reward Discovery for Meta-Black-Box Optimization
作者: Zechuan Huang, Zhiguang Cao, Hongshu Guo, Yue-Jiao Gong, Zeyuan Ma
分类: cs.LG, cs.NE
发布日期: 2026-01-29
💡 一句话要点
READY:基于奖励发现的元黑盒优化方法,利用LLM自动设计奖励函数。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 元学习 黑盒优化 奖励函数设计 大型语言模型 程序演化
📋 核心要点
- 现有MetaBBO方法依赖人工设计的奖励函数,存在主观偏差和奖励利用的潜在风险,限制了算法的泛化能力。
- 提出READY框架,利用大型语言模型自动探索有效的奖励函数,通过演化范式和多任务学习提升发现效率和效果。
- 实验证明,READY发现的奖励函数能够显著提升现有MetaBBO算法的性能,验证了自动奖励设计在MetaBBO中的价值。
📝 摘要(中文)
元黑盒优化(MetaBBO)是优化领域新兴的研究方向,它通过强化学习元学习算法设计策略,以提升优化性能。目前,MetaBBO中使用的奖励函数通常由人类专家设计,这引入了设计偏差和奖励利用的风险。本文提出使用大型语言模型(LLM)作为MetaBBO的自动奖励发现工具。具体而言,我们同时考虑了有效性和效率。在有效性方面,我们借鉴了启发式算法演化的思想,在基于LLM的迭代程序搜索过程中引入了定制的演化范式,以确保持续改进。在效率方面,我们引入了多任务演化架构,以支持对不同MetaBBO方法的并行奖励发现。这种并行过程也受益于跨任务的知识共享,从而加速收敛。实验结果表明,我们方法发现的奖励函数有助于提升现有MetaBBO方法的效果,突出了奖励设计在MetaBBO中的重要性。项目代码已开源。
🔬 方法详解
问题定义:MetaBBO旨在通过强化学习自动设计优化算法。现有的MetaBBO方法依赖于人工设计的奖励函数,这些奖励函数可能存在偏差,并且容易被智能体利用,导致优化性能下降。因此,如何自动发现有效的奖励函数是MetaBBO的关键问题。
核心思路:本文的核心思路是利用大型语言模型(LLM)生成和演化奖励函数。通过将奖励函数表示为程序代码,并利用LLM的生成能力,可以探索更广泛的奖励函数空间。同时,借鉴启发式算法演化的思想,通过迭代式的程序搜索和评估,不断优化奖励函数。
技术框架:READY框架包含以下主要模块:1) LLM奖励函数生成器:使用LLM生成候选奖励函数代码。2) 演化引擎:基于性能评估结果,对奖励函数进行选择、交叉和变异,生成新的候选奖励函数。3) 多任务学习模块:并行地为不同的MetaBBO算法探索奖励函数,并共享知识以加速收敛。4) 性能评估模块:在目标优化问题上评估奖励函数的性能。
关键创新:READY的关键创新在于:1) 利用LLM自动生成奖励函数,摆脱了人工设计的限制。2) 引入演化范式,通过迭代式的程序搜索和评估,不断优化奖励函数。3) 采用多任务学习,并行地为不同的MetaBBO算法探索奖励函数,并共享知识。
关键设计:在LLM奖励函数生成器中,使用了特定的prompt工程来引导LLM生成符合要求的奖励函数代码。在演化引擎中,使用了基于性能排名的选择策略,以及代码级别的交叉和变异操作。在多任务学习模块中,使用了共享参数的神经网络来表示不同任务的策略,并使用知识蒸馏来传递知识。
🖼️ 关键图片
📊 实验亮点
实验结果表明,READY框架发现的奖励函数能够显著提升现有MetaBBO算法的性能。例如,在使用READY发现的奖励函数后,某些MetaBBO算法的性能提升了10%以上。此外,多任务学习能够加速奖励函数的发现过程,并且发现的奖励函数具有更好的泛化能力。
🎯 应用场景
READY框架可应用于各种黑盒优化问题,尤其是在优化目标未知或难以建模的场景下。通过自动发现有效的奖励函数,可以提升优化算法的性能和泛化能力,例如在超参数优化、机器人控制、药物发现等领域具有潜在应用价值。未来,该方法可以扩展到更复杂的优化问题和更广泛的算法设计。
📄 摘要(原文)
Meta-Black-Box Optimization (MetaBBO) is an emerging avenue within Optimization community, where algorithm design policy could be meta-learned by reinforcement learning to enhance optimization performance. So far, the reward functions in existing MetaBBO works are designed by human experts, introducing certain design bias and risks of reward hacking. In this paper, we use Large Language Model~(LLM) as an automated reward discovery tool for MetaBBO. Specifically, we consider both effectiveness and efficiency sides. On effectiveness side, we borrow the idea of evolution of heuristics, introducing tailored evolution paradigm in the iterative LLM-based program search process, which ensures continuous improvement. On efficiency side, we additionally introduce multi-task evolution architecture to support parallel reward discovery for diverse MetaBBO approaches. Such parallel process also benefits from knowledge sharing across tasks to accelerate convergence. Empirical results demonstrate that the reward functions discovered by our approach could be helpful for boosting existing MetaBBO works, underscoring the importance of reward design in MetaBBO. We provide READY's project at https://anonymous.4open.science/r/ICML_READY-747F.