Drift: Decoding-time Personalized Alignments with Implicit User Preferences
作者: Minbeom Kim, Kang-il Lee, Seongho Joo, Hwaran Lee, Thibaut Thonet, Kyomin Jung
分类: cs.CL
发布日期: 2025-02-20 (更新: 2025-05-08)
备注: 19 pages, 6 figures
💡 一句话要点
Drift:通过隐式用户偏好,在解码时进行个性化对齐
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 个性化语言模型 解码时对齐 隐式用户偏好 免训练学习 可解释性 大型语言模型 人机交互
📋 核心要点
- 现有RLHF方法个性化LLM需要大量标注数据和计算资源,成本高昂。
- Drift通过建模用户对可解释属性的偏好,在解码时引导冻结模型生成个性化内容。
- 实验表明,Drift仅用少量样本即可显著优于RLHF基线,且计算效率更高。
📝 摘要(中文)
本文提出Drift,一种新颖的框架,用于在解码时利用隐式用户偏好来个性化大型语言模型(LLM)。传统的基于人类反馈的强化学习(RLHF)需要数千个带标注的示例和昂贵的梯度更新。相比之下,Drift以一种免训练的方式个性化LLM,仅使用几十个示例,通过高效的偏好建模来引导一个冻结的模型。我们的方法将用户偏好建模为预定义的、可解释的属性的组合,并在解码时对齐这些属性,以实现个性化生成。在合成角色数据集(Perspective)和真实人工标注数据集(PRISM)上的实验表明,Drift仅使用50-100个示例,就显著优于RLHF基线。我们的结果和分析表明,Drift在计算上是高效且可解释的。
🔬 方法详解
问题定义:现有的大型语言模型(LLM)个性化方法,特别是基于人类反馈的强化学习(RLHF),通常需要大量的标注数据和昂贵的梯度更新,这限制了它们在资源受限场景下的应用。此外,RLHF训练后的模型难以解释其个性化行为,缺乏透明度。
核心思路:Drift的核心思路是在解码阶段,通过对齐用户偏好来个性化LLM,而无需重新训练模型。它将用户偏好建模为一组预定义的、可解释的属性的组合。通过调整这些属性在解码过程中的影响,可以引导模型生成符合特定用户偏好的文本。这种方法避免了昂贵的训练过程,并且具有更好的可解释性。
技术框架:Drift框架主要包含以下几个阶段:1) 偏好建模:使用少量用户提供的示例,学习用户对不同属性的偏好程度。2) 属性对齐:在解码过程中,根据学习到的用户偏好,调整每个属性对生成概率的影响。3) 文本生成:使用调整后的概率分布生成文本。整个过程是在一个冻结的LLM上进行的,无需梯度更新。
关键创新:Drift的关键创新在于它是一种免训练的个性化方法,可以在解码时动态调整LLM的行为。与传统的RLHF方法相比,它只需要少量示例,并且具有更好的可解释性。此外,Drift将用户偏好建模为可解释的属性组合,使得用户可以更容易地理解和控制模型的行为。
关键设计:Drift的关键设计包括:1) 属性定义:选择一组能够有效描述用户偏好的属性,例如“乐观”、“礼貌”等。2) 偏好学习:使用对比学习或其他方法,从用户提供的示例中学习用户对每个属性的偏好程度。3) 解码策略:设计一种解码策略,根据学习到的用户偏好,调整每个属性对生成概率的影响。例如,可以使用加权平均或温度缩放等方法。
🖼️ 关键图片
📊 实验亮点
Drift在Perspective和PRISM数据集上进行了评估,结果表明,仅使用50-100个示例,Drift就能显著优于RLHF基线。例如,在PRISM数据集上,Drift在个性化对齐方面取得了显著提升,同时保持了较高的生成质量。实验还表明,Drift具有良好的可解释性,用户可以理解和控制模型的个性化行为。
🎯 应用场景
Drift可应用于各种需要个性化文本生成的场景,例如个性化客服、定制化内容推荐、角色扮演对话等。它能够根据用户的特定偏好生成符合其需求的文本,提高用户满意度和体验。由于其免训练的特性,Drift尤其适用于资源受限的场景,例如移动设备或边缘计算环境。
📄 摘要(原文)
Personalized alignments for individual users have been a long-standing goal in large language models (LLMs). We introduce Drift, a novel framework that personalizes LLMs at decoding time with implicit user preferences. Traditional Reinforcement Learning from Human Feedback (RLHF) requires thousands of annotated examples and expensive gradient updates. In contrast, Drift personalizes LLMs in a training-free manner, using only a few dozen examples to steer a frozen model through efficient preference modeling. Our approach models user preferences as a composition of predefined, interpretable attributes and aligns them at decoding time to enable personalized generation. Experiments on both a synthetic persona dataset (Perspective) and a real human-annotated dataset (PRISM) demonstrate that Drift significantly outperforms RLHF baselines while using only 50-100 examples. Our results and analysis show that Drift is both computationally efficient and interpretable.