Shallow Preference Signals: Large Language Model Aligns Even Better with Truncated Data?

📄 arXiv: 2505.17122v1 📥 PDF

作者: Xuan Qi, Jiahao Qiu, Xinzhe Juan, Yue Wu, Mengdi Wang

分类: cs.CL

发布日期: 2025-05-21

备注: 17 pages, 7 figures


💡 一句话要点

发现大语言模型偏好信号浅层性:截断数据对齐效果更佳

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型对齐 人类偏好 浅层偏好信号 截断数据 奖励模型 直接偏好优化 解码策略

📋 核心要点

  1. 现有大语言模型对齐方法过度依赖完整响应数据,忽略了偏好信号可能集中在早期token的现象。
  2. 论文提出“浅层偏好信号”概念,通过截断数据集训练模型,探索利用早期token信息实现高效对齐。
  3. 实验表明,在截断数据集上训练的模型性能甚至优于完整数据集,验证了浅层偏好信号的有效性。

📝 摘要(中文)

将大型语言模型(LLM)与人类偏好对齐仍然是人工智能领域的一个关键挑战。基于偏好的优化方法,如基于人类反馈的强化学习(RLHF)和直接偏好优化(DPO),依赖于人工标注的数据集来改进对齐效果。本文发现现有学习方法的一个关键特性:在首选响应中获得的区分信号通常集中在早期token中,称之为浅层偏好信号。为了探索这一特性,系统地截断偏好数据集并在截断的数据上训练奖励模型和DPO模型。令人惊讶的是,在只保留前一半或更少token的截断数据集上训练的模型,其性能与在完整数据集上训练的模型相当甚至更好。例如,在40%截断数据集上训练的奖励模型优于在完整数据集上训练的Skywork-Reward-Preference-80K-v0.2数据集。这种模式在多个数据集中是一致的,表明浅层偏好信号的广泛存在。进一步通过解码策略研究奖励信号的分布,并考虑两种受浅层奖励信号观察驱动的简单解码策略,即长度控制解码和KL阈值控制解码,利用浅层偏好信号来优化对齐和计算效率之间的权衡。性能甚至更好,再次验证了假设。浅层偏好信号的现象突出了LLM对齐中潜在的问题:现有的对齐方法通常只关注对齐响应的初始token,而不是考虑完整的响应。这可能导致与真实世界人类偏好的差异,从而导致次优的对齐性能。

🔬 方法详解

问题定义:现有的大语言模型对齐方法,如RLHF和DPO,依赖于人工标注的偏好数据集。这些方法通常将整个响应序列作为输入,计算奖励或进行策略优化。然而,这些方法忽略了一个潜在的问题:人类的偏好信号可能主要集中在响应的早期部分,即“浅层偏好信号”。现有方法的痛点在于计算效率低下,且可能过度拟合不重要的后续token,导致对齐效果不佳。

核心思路:论文的核心思路是利用“浅层偏好信号”这一特性,通过截断偏好数据集,仅使用响应的早期token来训练奖励模型和DPO模型。这样可以减少计算量,并使模型更专注于学习重要的偏好信号。论文假设,如果偏好信号主要集中在早期token,那么在截断的数据集上训练的模型应该能够达到甚至超过在完整数据集上训练的模型的性能。

技术框架:论文的技术框架主要包括以下几个步骤:1) 偏好数据集截断:将现有的偏好数据集按照不同的比例(例如,20%、40%、60%)进行截断,只保留响应的早期token。2) 奖励模型训练:在截断的数据集上训练奖励模型,目标是预测人类对响应的偏好程度。3) DPO模型训练:在截断的数据集上训练DPO模型,直接优化策略,使其生成的响应更符合人类偏好。4) 解码策略优化:提出两种基于浅层偏好信号的解码策略,即长度控制解码和KL阈值控制解码,以进一步提高对齐效果。

关键创新:论文最重要的技术创新点在于发现了“浅层偏好信号”这一现象,并提出了利用这一现象来提高大语言模型对齐效率的方法。与现有方法相比,该方法不再需要使用完整的响应序列进行训练,从而大大减少了计算量。此外,该方法还可以使模型更专注于学习重要的偏好信号,避免过度拟合不重要的后续token。

关键设计:论文的关键设计包括:1) 截断比例的选择:实验中尝试了不同的截断比例,以找到最佳的截断点。2) 奖励模型的结构和训练方法:使用了标准的奖励模型结构,并采用标准的训练方法进行训练。3) DPO模型的训练方法:使用了标准的DPO训练方法进行训练。4) 长度控制解码:限制生成序列的长度,避免生成过长的响应。5) KL阈值控制解码:限制生成序列与原始模型的KL散度,避免生成过于偏离原始模型的响应。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在多个数据集上,使用截断数据集训练的奖励模型和DPO模型,其性能与使用完整数据集训练的模型相当甚至更好。例如,在Skywork-Reward-Preference-80K-v0.2数据集上,使用40%截断数据集训练的奖励模型优于使用完整数据集训练的模型。此外,提出的长度控制解码和KL阈值控制解码策略进一步提高了对齐效果。

🎯 应用场景

该研究成果可应用于大语言模型的对齐训练,尤其是在计算资源有限的情况下。通过利用浅层偏好信号,可以显著降低训练成本,提高训练效率。此外,该研究还可以指导未来的偏好数据集标注工作,使其更注重早期token的质量。未来,该方法有望应用于对话系统、文本生成等领域,提升用户体验。

📄 摘要(原文)

Aligning large language models (LLMs) with human preferences remains a key challenge in AI. Preference-based optimization methods, such as Reinforcement Learning with Human Feedback (RLHF) and Direct Preference Optimization (DPO), rely on human-annotated datasets to improve alignment. In this work, we identify a crucial property of the existing learning method: the distinguishing signal obtained in preferred responses is often concentrated in the early tokens. We refer to this as shallow preference signals. To explore this property, we systematically truncate preference datasets at various points and train both reward models and DPO models on the truncated data. Surprisingly, models trained on truncated datasets, retaining only the first half or fewer tokens, achieve comparable or even superior performance to those trained on full datasets. For example, a reward model trained on the Skywork-Reward-Preference-80K-v0.2 dataset outperforms the full dataset when trained on a 40\% truncated dataset. This pattern is consistent across multiple datasets, suggesting the widespread presence of shallow preference signals. We further investigate the distribution of the reward signal through decoding strategies. We consider two simple decoding strategies motivated by the shallow reward signal observation, namely Length Control Decoding and KL Threshold Control Decoding, which leverage shallow preference signals to optimize the trade-off between alignment and computational efficiency. The performance is even better, which again validates our hypothesis. The phenomenon of shallow preference signals highlights potential issues in LLM alignment: existing alignment methods often focus on aligning only the initial tokens of responses, rather than considering the full response. This could lead to discrepancies with real-world human preferences, resulting in suboptimal alignment performance.