PARM: Multi-Objective Test-Time Alignment via Preference-Aware Autoregressive Reward Model

📄 arXiv: 2505.06274v1 📥 PDF

作者: Baijiong Lin, Weisen Jiang, Yuancheng Xu, Hao Chen, Ying-Cong Chen

分类: cs.LG, cs.AI

发布日期: 2025-05-06

备注: Accepted by ICML 2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出PARM:通过偏好感知自回归奖励模型实现多目标测试时对齐

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多目标优化 测试时对齐 自回归奖励模型 偏好学习 低秩适配

📋 核心要点

  1. 现有方法GenARM需要为每个偏好维度训练独立的自回归奖励模型,导致推理成本高昂且偏好不一致。
  2. PARM提出了一种偏好感知的自回归奖励模型,通过双线性低秩适配(PBLoRA)实现对偏好向量的精确控制。
  3. 实验表明PARM降低了推理成本,更好地对齐用户偏好,并支持弱到强的模型引导,降低计算资源需求。

📝 摘要(中文)

多目标测试时对齐旨在推理过程中将大型语言模型(LLM)适配到不同的多维用户偏好,同时保持LLM参数冻结。最近,GenARM首先独立地为每个偏好维度训练自回归奖励模型(ARM),彼此之间没有感知,然后在推理过程中基于用户特定的偏好向量组合它们的输出,以实现多目标测试时对齐,但这导致两个关键限制:需要 extit{多个}ARM增加了推理成本,并且ARM的独立训练导致引导生成和用户偏好之间的不一致。为了解决这些问题,我们提出了偏好感知ARM(PARM),这是一个在所有偏好维度上训练的单一统一的ARM。PARM使用我们提出的偏好感知双线性低秩适配(PBLoRA),它采用双线性形式来调节ARM上的偏好向量,使其能够在推理过程中实现对偏好权衡的精确控制。实验表明,与现有方法相比,PARM降低了推理成本,并实现了与偏好向量更好的对齐。此外,PARM实现了弱到强的引导,允许较小的PARM引导较大的冻结LLM,而无需昂贵的训练,从而使多目标对齐能够在有限的计算资源下进行。

🔬 方法详解

问题定义:现有的多目标测试时对齐方法,如GenARM,需要为每个用户偏好维度训练独立的自回归奖励模型(ARMs)。这导致了两个主要问题:一是推理成本随着偏好维度的增加而线性增长;二是各个ARM之间缺乏协调,导致最终生成结果与用户偏好不一致。因此,如何降低推理成本,并提高生成结果与用户偏好的一致性,是本文要解决的核心问题。

核心思路:本文的核心思路是训练一个统一的、偏好感知的自回归奖励模型(PARM),该模型能够同时处理多个偏好维度。通过将用户偏好向量作为输入,PARM能够根据不同的偏好组合,生成相应的奖励信号,从而引导大型语言模型(LLM)生成符合用户偏好的文本。这种方法避免了训练多个独立ARM的需求,降低了推理成本,并提高了偏好一致性。

技术框架:PARM的整体框架包括以下几个主要组成部分:1)一个冻结的大型语言模型(LLM),作为生成文本的基础;2)一个偏好感知的自回归奖励模型(PARM),用于评估生成文本的质量和与用户偏好的一致性;3)一个偏好向量,用于指定用户对不同偏好维度的权重。在推理过程中,PARM根据偏好向量生成奖励信号,引导LLM生成符合用户偏好的文本。

关键创新:PARM最关键的创新点在于提出了偏好感知双线性低秩适配(PBLoRA)。PBLoRA使用双线性形式将用户偏好向量融入到ARM中,使得ARM能够根据不同的偏好组合,生成相应的奖励信号。与现有方法相比,PBLoRA能够更精确地控制偏好权衡,并避免了训练多个独立ARM的需求。

关键设计:PBLoRA的关键设计在于使用双线性层将偏好向量映射到ARM的参数空间。具体来说,PBLoRA在ARM的每一层都引入了一个双线性层,该层将偏好向量作为输入,生成一个低秩矩阵,用于调整ARM的权重。通过调整低秩矩阵的参数,PARM能够根据不同的偏好组合,生成相应的奖励信号。此外,PARM还采用了弱到强的引导策略,即使用一个较小的PARM来引导一个较大的LLM,从而降低了计算资源的需求。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PARM在多目标测试时对齐任务上取得了显著的性能提升。与GenARM相比,PARM降低了推理成本,并实现了与偏好向量更好的对齐。此外,PARM还展示了弱到强的引导能力,即使用一个较小的PARM来引导一个较大的LLM,而无需昂贵的训练。这使得多目标对齐能够在有限的计算资源下进行。

🎯 应用场景

PARM具有广泛的应用前景,例如个性化内容生成、对话系统、推荐系统等。它可以根据用户的不同偏好,生成定制化的文本内容,提高用户满意度。此外,PARM还可以应用于资源受限的场景,例如移动设备或嵌入式系统,通过弱到强的引导策略,实现高效的多目标对齐。

📄 摘要(原文)

Multi-objective test-time alignment aims to adapt large language models (LLMs) to diverse multi-dimensional user preferences during inference while keeping LLMs frozen. Recently, GenARM (Xu et al., 2025) first independently trains Autoregressive Reward Models (ARMs) for each preference dimension without awareness of each other, then combines their outputs based on user-specific preference vectors during inference to achieve multi-objective test-time alignment, leading to two key limitations: the need for \textit{multiple} ARMs increases the inference cost, and the separate training of ARMs causes the misalignment between the guided generation and the user preferences. To address these issues, we propose Preference-aware ARM (PARM), a single unified ARM trained across all preference dimensions. PARM uses our proposed Preference-Aware Bilinear Low-Rank Adaptation (PBLoRA), which employs a bilinear form to condition the ARM on preference vectors, enabling it to achieve precise control over preference trade-offs during inference. Experiments demonstrate that PARM reduces inference costs and achieves better alignment with preference vectors compared with existing methods. Additionally, PARM enables weak-to-strong guidance, allowing a smaller PARM to guide a larger frozen LLM without expensive training, making multi-objective alignment accessible with limited computing resources. The code is available at https://github.com/Baijiong-Lin/PARM.