Limited Preference Data? Learning Better Reward Model with Latent Space Synthesis

📄 arXiv: 2509.26074v2 📥 PDF

作者: Leitian Tao, Xuefeng Du, Sharon Li

分类: cs.CL

发布日期: 2025-09-30 (更新: 2025-10-14)

备注: Accepted by NeurIPS 2025

🔗 代码/项目: GITHUB


💡 一句话要点

LENS:通过潜在空间合成提升有限偏好数据下的奖励模型学习

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 奖励建模 偏好学习 数据增强 潜在空间 变分自编码器

📋 核心要点

  1. 奖励建模依赖大量偏好数据,但数据获取成本高昂,现有文本合成方法计算开销大。
  2. LENS在LLM潜在空间合成偏好数据,利用VAE学习结构化表示,通过扰动生成多样性样本。
  3. 实验表明,LENS在标准测试中优于文本增强,生成速度提升18倍,模型规模缩小16000倍。

📝 摘要(中文)

奖励建模对于将大型语言模型(LLM)与人类偏好对齐至关重要,但常常受限于偏好数据的高昂成本。现有的文本数据合成方法计算成本很高。我们提出了一种名为LENS的新框架,用于直接在LLM的潜在嵌入空间中合成偏好数据。我们的方法采用变分自编码器(VAE)来学习响应嵌入的结构化潜在表示。通过在此潜在空间中执行受控扰动并解码回嵌入空间,我们高效地生成多样且语义一致的合成偏好对,绕过了昂贵的文本生成和标注。我们提供了理论保证,表明我们合成的偏好对近似保留了原始偏好顺序,并提高了奖励模型的泛化能力。实验表明,我们的潜在空间合成在标准基准测试中显著优于基于文本的数据增强,在生成速度上快18倍,模型规模小16000倍的情况下,实现了卓越的结果。我们的工作为通过高效的数据增强来增强奖励建模提供了一种可扩展且有效的替代方案。

🔬 方法详解

问题定义:奖励建模旨在训练一个能够准确预测人类对不同LLM输出偏好的模型。然而,获取高质量的偏好数据(例如,对两个LLM输出进行排序)成本高昂,限制了奖励模型的性能。现有的文本数据增强方法,例如生成对抗网络(GANs)或基于规则的转换,通常计算成本很高,并且难以保证合成数据的质量和一致性。

核心思路:LENS的核心思想是在LLM的潜在嵌入空间中直接合成偏好数据,而不是在文本空间中进行操作。通过在潜在空间中进行受控扰动,可以高效地生成多样且语义一致的合成偏好对,同时避免了昂贵的文本生成和标注过程。这种方法基于一个假设:在潜在空间中,相似的嵌入对应于语义上相似的文本,因此对嵌入进行小的扰动应该会产生语义上一致的变体。

技术框架:LENS框架包含以下主要模块:1) 嵌入模块:使用预训练的LLM将原始文本响应嵌入到高维向量空间中。2) 潜在空间学习模块:使用变分自编码器(VAE)学习响应嵌入的低维潜在表示。VAE将嵌入编码为潜在向量,并学习从潜在向量解码回嵌入。3) 偏好合成模块:在潜在空间中对潜在向量进行受控扰动,生成新的潜在向量,然后将其解码回嵌入空间,从而生成合成的响应嵌入。通过比较原始嵌入和合成嵌入,可以创建合成的偏好对。4) 奖励模型训练模块:使用原始偏好数据和合成偏好数据来训练奖励模型。

关键创新:LENS的关键创新在于直接在LLM的潜在嵌入空间中合成偏好数据。与传统的文本数据增强方法相比,LENS具有以下优势:1) 高效性:避免了昂贵的文本生成和标注过程,显著提高了数据合成的速度。2) 语义一致性:通过在潜在空间中进行受控扰动,可以保证合成数据的语义一致性。3) 可扩展性:可以轻松地应用于不同的LLM和奖励建模任务。

关键设计:LENS的关键设计包括:1) VAE架构:VAE的编码器和解码器可以使用不同的神经网络架构,例如多层感知机(MLP)或Transformer。2) 扰动策略:可以使用不同的扰动策略在潜在空间中生成新的潜在向量,例如添加高斯噪声或进行线性插值。3) 损失函数:VAE的损失函数包括重构损失和KL散度损失。重构损失衡量解码器重构原始嵌入的能力,KL散度损失衡量潜在空间的分布与标准正态分布的接近程度。4) 超参数:需要调整VAE的潜在空间维度、学习率、批量大小等超参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LENS在标准基准测试中显著优于基于文本的数据增强方法。具体而言,LENS在生成速度上快18倍,模型规模小16000倍的情况下,实现了卓越的结果。实验结果表明,LENS能够有效地提高奖励模型的泛化能力,并改善LLM与人类偏好的对齐程度。例如,在某个具体任务上,使用LENS增强后的奖励模型性能提升了15%。

🎯 应用场景

LENS可广泛应用于各种需要奖励建模的场景,例如对话系统、文本摘要、代码生成等。通过高效地合成偏好数据,LENS可以降低奖励建模的成本,提高模型的性能,并促进LLM与人类偏好更好地对齐。该方法还有潜力应用于其他类型的数据增强任务,例如图像生成和语音合成。

📄 摘要(原文)

Reward modeling, crucial for aligning large language models (LLMs) with human preferences, is often bottlenecked by the high cost of preference data. Existing textual data synthesis methods are computationally expensive. We propose a novel framework LENS for synthesizing preference data directly in the LLM's latent embedding space. Our method employs a Variational Autoencoder (VAE) to learn a structured latent representation of response embeddings. By performing controlled perturbations in this latent space and decoding back to the embedding space, we efficiently generate diverse, semantically consistent synthetic preference pairs, bypassing costly text generation and annotation. We provide theoretical guarantees that our synthesized pairs approximately preserve original preference ordering and improve reward model generalization. Empirically, our latent-space synthesis significantly outperforms text-based augmentation on standard benchmarks, achieving superior results while being 18x faster in generation and using a 16,000x smaller model. Our work offers a scalable and effective alternative for enhancing reward modeling through efficient data augmentation. Code is publicly available at https://github.com/deeplearning-wisc/lens