Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes

📄 arXiv: 2412.13998v1 📥 PDF

作者: Katarzyna Kobalczyk, Claudio Fanconi, Hao Sun, Mihaela van der Schaar

分类: cs.LG, cs.AI

发布日期: 2024-12-18

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于神经过程的少样本可控对齐框架,解决LLM个性化偏好对齐问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 偏好对齐 少样本学习 神经过程 个性化推荐

📋 核心要点

  1. 现有LLM对齐方法难以处理用户偏好的异质性,需要大量标注数据和高昂的计算成本。
  2. 提出一种基于神经过程的少样本可控对齐框架,从少量用户选择中推断潜在偏好。
  3. 实验表明,该方法能够以数据高效的方式捕获并对齐不同的人类偏好,实现个性化LLM输出。

📝 摘要(中文)

大型语言模型(LLMs)日益融入日常应用,确保其与不同用户的偏好对齐至关重要。现有方法通常假设用户目标同质,依赖于单目标微调。然而,人类偏好本质上是异质的,受多种未观察到的因素影响,导致偏好数据中存在冲突信号。解决这种多样性的现有方案通常需要昂贵的、针对特定目标标记的数据集,并涉及训练多个奖励模型或LLM策略,这在计算上是昂贵且不切实际的。本文提出了一种新的少样本可控对齐框架,其中用户的潜在偏好是从少量选择样本中推断出来的。为此,我们扩展了Bradley-Terry-Luce模型以处理具有未观察到的可变性因素的异质偏好,并提出了其在奖励建模和LLM微调中的实际应用。由于我们提出的函数参数空间条件化方法,使用我们的框架训练的LLM可以在推理时适应个人偏好,从而生成连续行为模式的输出。我们通过实验验证了该方法的有效性,证明了其以数据高效的方式捕获和对齐不同人类偏好的能力。代码已开源。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)与具有异质偏好的个体用户对齐的问题。现有方法通常假设用户偏好是同质的,并依赖于单目标微调,这无法有效处理现实世界中用户偏好的多样性。此外,现有解决异质偏好的方法需要大量标注数据和训练多个模型,计算成本高昂,难以实际应用。

核心思路:论文的核心思路是从少量用户选择样本中推断用户的潜在偏好,并利用这些推断的偏好来调整LLM的行为。通过扩展Bradley-Terry-Luce模型,论文能够处理具有未观察到的可变性因素的异质偏好。这种方法允许LLM在推理时适应个人偏好,从而生成更个性化的输出。

技术框架:该框架包含以下主要模块:1) 扩展的Bradley-Terry-Luce模型,用于从少量用户选择中推断用户偏好;2) 奖励建模,利用推断的偏好来训练奖励模型;3) LLM微调,使用奖励模型来微调LLM,使其能够生成符合用户偏好的输出。整个流程允许LLM在推理时根据用户的少量输入进行调整,实现个性化的行为。

关键创新:论文的关键创新在于提出了函数参数空间条件化方法,该方法允许LLM在推理时适应个人偏好。通过将用户偏好编码到LLM的参数空间中,LLM可以生成连续行为模式的输出,从而实现更精细的控制。此外,该方法只需要少量用户选择样本,大大降低了数据标注成本。

关键设计:论文的关键设计包括:1) 扩展的Bradley-Terry-Luce模型,用于处理异质偏好;2) 神经过程,用于学习用户偏好的分布;3) 奖励函数的设计,用于引导LLM生成符合用户偏好的输出;4) LLM微调策略,用于将用户偏好融入到LLM的参数空间中。具体的参数设置和网络结构在论文中有详细描述,但此处无法完全展开。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法能够以数据高效的方式捕获并对齐不同的人类偏好。与现有方法相比,该方法在少样本情况下能够显著提高LLM与用户偏好的一致性。具体的性能数据和对比基线在论文中有详细展示,证明了该方法的有效性和优越性。

🎯 应用场景

该研究成果可应用于各种需要个性化LLM输出的场景,例如:个性化推荐系统、定制化教育内容生成、以及能够根据用户特定需求生成文本的智能助手。通过少量用户交互,LLM能够快速适应用户的偏好,提供更贴合用户需求的个性化服务,具有广阔的应用前景。

📄 摘要(原文)

As large language models (LLMs) become increasingly embedded in everyday applications, ensuring their alignment with the diverse preferences of individual users has become a critical challenge. Currently deployed approaches typically assume homogeneous user objectives and rely on single-objective fine-tuning. However, human preferences are inherently heterogeneous, influenced by various unobservable factors, leading to conflicting signals in preference data. Existing solutions addressing this diversity often require costly datasets labelled for specific objectives and involve training multiple reward models or LLM policies, which is computationally expensive and impractical. In this work, we present a novel framework for few-shot steerable alignment, where users' underlying preferences are inferred from a small sample of their choices. To achieve this, we extend the Bradley-Terry-Luce model to handle heterogeneous preferences with unobserved variability factors and propose its practical implementation for reward modelling and LLM fine-tuning. Thanks to our proposed approach of functional parameter-space conditioning, LLMs trained with our framework can be adapted to individual preferences at inference time, generating outputs over a continuum of behavioural modes. We empirically validate the effectiveness of methods, demonstrating their ability to capture and align with diverse human preferences in a data-efficient manner. Our code is made available at: https://github.com/kasia-kobalczyk/few-shot-steerable-alignment.