MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization

📄 arXiv: 2601.07208v1 📥 PDF

作者: Yang Zhao, Hepeng Wang, Xiao Ding, Yangou Ouyang, Bibo Cai, Kai Xiong, Jinglong Gao, Zhouhao Sun, Li Du, Bing Qin, Ting Liu

分类: cs.LG, cs.CL

发布日期: 2026-01-12


💡 一句话要点

MAESTRO:通过元学习自适应估计标量化权衡,优化奖励函数,提升LLM在开放域任务中的性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 奖励优化 元学习 群体相对策略优化 多目标优化

📋 核心要点

  1. 现有GRPO方法在开放域LLM对齐中,由于多目标冲突和静态奖励标量化,效果受限。
  2. MAESTRO将奖励标量化视为动态策略,利用元学习和上下文bandit方法自适应调整。
  3. 实验表明,MAESTRO在多个基准测试中超越了传统方法,同时保持了效率优势。

📝 摘要(中文)

群体相对策略优化(GRPO)已成为对齐大型语言模型(LLM)的有效范例,但其有效性主要局限于具有可验证ground truth的领域。将GRPO扩展到开放域环境仍然是一个关键挑战,因为不受约束的生成涉及多方面且经常相互冲突的目标——例如创造性与事实性——而刚性的、静态的奖励标量化本质上是次优的。为了解决这个问题,我们提出了MAESTRO(Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization),它引入了一个元认知编排层,将奖励标量化视为一种动态的潜在策略,利用模型的终端隐藏状态作为语义瓶颈来感知特定任务的优先级。我们将其表述为双层优化框架内的上下文bandit问题,其中轻量级的Conductor网络通过利用群体相对优势作为元奖励信号与策略共同进化。在七个基准测试中,MAESTRO始终优于单奖励和静态多目标基线,同时保留了GRPO的效率优势,并且在某些设置中甚至减少了冗余生成。

🔬 方法详解

问题定义:现有基于GRPO的LLM对齐方法,在开放域任务中面临多目标优化问题,例如创造性与事实性之间的权衡。静态的奖励标量化方法无法适应不同任务的需求,导致性能下降。因此,需要一种能够动态调整奖励权重的策略,以更好地平衡不同目标。

核心思路:MAESTRO的核心思想是将奖励标量化过程视为一个动态的潜在策略,通过元学习的方式,让模型能够根据任务的上下文信息自适应地调整奖励权重。这种方法模拟了人类专家在不同任务中调整策略的思维过程,从而更好地平衡不同目标。

技术框架:MAESTRO采用双层优化框架。第一层是LLM策略的学习,目标是生成高质量的文本。第二层是一个轻量级的Conductor网络,负责学习奖励标量化策略。Conductor网络以LLM的终端隐藏状态作为输入,输出奖励权重。整个框架通过上下文bandit算法进行训练,Conductor网络利用群体相对优势作为元奖励信号,与LLM策略共同进化。

关键创新:MAESTRO的关键创新在于将奖励标量化问题转化为一个元学习问题,并引入了Conductor网络来动态调整奖励权重。与传统的静态标量化方法相比,MAESTRO能够更好地适应不同任务的需求,从而提高LLM的性能。此外,利用群体相对优势作为元奖励信号,可以更有效地训练Conductor网络。

关键设计:Conductor网络是一个轻量级的神经网络,可以使用MLP或Transformer结构。损失函数包括LLM策略的损失和Conductor网络的损失。Conductor网络的训练目标是最大化元奖励,即群体相对优势。上下文bandit算法用于探索不同的奖励权重组合,并根据反馈信号更新Conductor网络。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MAESTRO在七个基准测试中 consistently 优于单奖励和静态多目标基线。实验结果表明,MAESTRO不仅提高了LLM的性能,还保留了GRPO的效率优势,并在某些设置中减少了冗余生成。这些结果验证了MAESTRO在开放域LLM对齐中的有效性。

🎯 应用场景

MAESTRO可应用于各种开放域LLM任务,如对话生成、文本摘要、创意写作等。通过自适应地调整奖励权重,可以更好地平衡不同目标,提高生成文本的质量和多样性。该方法还可用于优化其他多目标优化问题,具有广泛的应用前景。

📄 摘要(原文)

Group-Relative Policy Optimization (GRPO) has emerged as an efficient paradigm for aligning Large Language Models (LLMs), yet its efficacy is primarily confined to domains with verifiable ground truths. Extending GRPO to open-domain settings remains a critical challenge, as unconstrained generation entails multi-faceted and often conflicting objectives - such as creativity versus factuality - where rigid, static reward scalarization is inherently suboptimal. To address this, we propose MAESTRO (Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization), which introduces a meta-cognitive orchestration layer that treats reward scalarization as a dynamic latent policy, leveraging the model's terminal hidden states as a semantic bottleneck to perceive task-specific priorities. We formulate this as a contextual bandit problem within a bi-level optimization framework, where a lightweight Conductor network co-evolves with the policy by utilizing group-relative advantages as a meta-reward signal. Across seven benchmarks, MAESTRO consistently outperforms single-reward and static multi-objective baselines, while preserving the efficiency advantages of GRPO, and in some settings even reducing redundant generation.