Learning from Reference Answers: Versatile Language Model Alignment without Binary Human Preference Data
作者: Shuai Zhao, Yunqiu Xu, Linchao Zhu, Yi Yang
分类: cs.CL, cs.AI, cs.LG
发布日期: 2025-04-14 (更新: 2025-10-13)
备注: The code is at https://github.com/mzhaoshuai/RefAlign
🔗 代码/项目: GITHUB
💡 一句话要点
RefAlign:无需二元人类偏好数据,利用参考答案对齐语言模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语言模型对齐 强化学习 参考答案 奖励函数 BERTScore 无监督学习 安全性对齐
📋 核心要点
- 现有语言模型对齐方法依赖于耗时的二元偏好数据收集和奖励模型训练,成本高昂。
- RefAlign利用生成结果与参考答案的相似度作为奖励,无需二元偏好数据和显式奖励模型。
- 实验表明,RefAlign在多个对齐场景中,性能与现有方法相当,同时降低了数据和模型依赖。
📝 摘要(中文)
大型语言模型(LLMs)应具备有帮助、无害和诚实的特性。在安全性、置信度和通用偏好对齐等不同对齐场景中,二元偏好数据收集和奖励建模是资源密集型的,但在传递人类偏好方面起着核心作用。本文探索使用采样生成结果与参考答案之间的相似性作为对齐的补充奖励函数。当存在单一参考答案时,这种基于相似性的奖励可以避免对二元偏好数据和显式奖励建模的需求。我们提出了RefAlign,一种通用的REINFORCE风格对齐算法,它不依赖于奖励或参考模型。RefAlign利用语言生成评估指标(如BERTScore)作为采样生成结果与参考答案之间的替代奖励。除了通用偏好优化之外,RefAlign还可以通过将基于相似性的奖励与特定于任务的目标相结合,自然地扩展到包括安全性和置信度对齐在内的各种场景。在多个场景中,RefAlign实现了与先前对齐方法相当的性能,同时无需二元偏好数据或奖励模型。代码可在https://github.com/mzhaoshuai/RefAlign 获取。
🔬 方法详解
问题定义:现有的大型语言模型对齐方法,例如基于人类反馈的强化学习(RLHF),通常需要大量的二元偏好数据(例如,人类对两个模型输出的偏好选择)来训练奖励模型。这个过程耗时且成本高昂,限制了对齐方法的可扩展性和通用性。此外,奖励模型的训练也可能引入偏差,影响最终模型的性能。
核心思路:RefAlign的核心思想是利用参考答案作为人类偏好的替代信号。通过计算模型生成结果与参考答案之间的相似度,可以直接作为奖励信号来指导模型的训练,而无需显式的二元偏好数据和奖励模型。这种方法简化了对齐流程,降低了成本,并减少了潜在的偏差。
技术框架:RefAlign采用REINFORCE风格的强化学习框架。该框架包含一个语言模型(Actor)和一个环境。Actor负责生成文本,环境根据生成文本与参考答案的相似度计算奖励。Actor的目标是最大化累积奖励。具体流程如下:1) Actor生成文本;2) 计算生成文本与参考答案之间的相似度(例如,使用BERTScore);3) 将相似度作为奖励反馈给Actor;4) Actor根据奖励更新模型参数。
关键创新:RefAlign最重要的创新在于它避免了对二元偏好数据和奖励模型的依赖。通过直接利用参考答案作为奖励信号,RefAlign简化了对齐流程,降低了成本,并减少了潜在的偏差。此外,RefAlign还具有很强的通用性,可以应用于各种对齐场景,例如安全性、置信度和通用偏好对齐。
关键设计:RefAlign的关键设计包括:1) 使用BERTScore等语言生成评估指标来计算生成文本与参考答案之间的相似度。BERTScore能够捕捉语义相似性,比简单的词汇重叠指标更有效。2) 使用REINFORCE算法来更新模型参数。REINFORCE是一种策略梯度算法,可以直接优化模型的期望奖励。3) 可以通过结合相似度奖励与任务特定目标来实现不同场景的对齐。例如,在安全性对齐中,可以将相似度奖励与惩罚不安全内容的损失函数结合使用。
🖼️ 关键图片
📊 实验亮点
实验结果表明,RefAlign在多个对齐场景中实现了与现有方法相当的性能,同时无需二元偏好数据和奖励模型。例如,在通用偏好对齐任务中,RefAlign的性能与使用RLHF训练的模型相当。在安全性对齐任务中,RefAlign能够有效减少模型生成不安全内容的概率。
🎯 应用场景
RefAlign具有广泛的应用前景,可用于提升大型语言模型在各种场景下的性能,例如对话系统、文本摘要、机器翻译等。该方法尤其适用于缺乏高质量二元偏好数据的场景,例如低资源语言或特定领域。此外,RefAlign还可以用于开发更安全、更可靠的语言模型,减少模型产生有害或不准确信息的风险。
📄 摘要(原文)
Large language models~(LLMs) are expected to be helpful, harmless, and honest. In different alignment scenarios, such as safety, confidence, and general preference alignment, binary preference data collection and reward modeling are resource-intensive but play a central role in transferring human preferences. In this work, we explore using the similarity between sampled generations and reference answers as a supplementary reward function for alignment. When unary reference answers are available, such similarity-based rewards can circumvent the need for binary preference data and explicit reward modeling. We introduce \textit{RefAlign}, a versatile REINFORCE-style alignment algorithm that does not rely on reward or reference models. RefAlign utilizes language generation evaluation metrics, such as BERTScore, between sampled generations and reference answers as surrogate rewards. Beyond general preference optimization, RefAlign can be naturally extended to diverse scenarios, including safety and confidence alignment, by combining similarity-based rewards with task-specific objectives. Across multiple scenarios, RefAlign achieves performance comparable to prior alignment methods while operating without binary preference data or reward models. The code is available at https://github.com/mzhaoshuai/RefAlign.