Axiomatic Preference Modeling for Longform Question Answering
作者: Corby Rosset, Guoqing Zheng, Victor Dibia, Ahmed Awadallah, Paul Bennett
分类: cs.AI, cs.CL
发布日期: 2023-12-02
备注: Accepted to EMNLP 2023
🔗 代码/项目: HUGGINGFACE
💡 一句话要点
提出基于公理化偏好建模的长文本问答方法,小模型性能超越GPT-4。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 偏好建模 公理化方法 长文本问答 奖励模型 人类反馈
📋 核心要点
- 现有奖励模型缺乏对人类偏好背后原则的直接理解,限制了其对齐人类意图的能力。
- 提出一种公理化框架,通过生成符合特定原则的偏好信号,训练奖励模型,使其更好地对齐人类偏好。
- 实验表明,使用公理化信号训练的小型偏好模型在长文本问答偏好评分任务上优于GPT-4。
📝 摘要(中文)
大型语言模型(LLMs)如GPT-4的卓越能力部分源于后训练过程,例如基于人类反馈的强化学习(RLHF),其中人类偏好被编码到奖励模型中。然而,这些奖励模型(RMs)通常缺乏关于偏好标注原因或依据原则的直接知识。本研究旨在识别指导RMs更好对齐人类偏好的原则,并开发一个公理化框架来生成丰富的偏好信号以支持这些原则。我们使用这些公理化信号来训练一个模型,用于对长文本问题的答案进行评分。我们的方法产生了一个仅约2.2亿参数的偏好模型,该模型在人类标注的偏好标签上比GPT-4更一致。本研究的贡献包括:训练一个独立的偏好模型,可以在同一尺度上对人类和LLM生成的答案进行评分;开发一个公理化框架,用于生成针对特定原则定制的训练数据对;以及表明少量的公理化信号可以帮助小模型在偏好评分方面优于GPT-4。我们在Hugging Face上发布了我们的模型。
🔬 方法详解
问题定义:论文旨在解决长文本问答中,奖励模型难以准确捕捉人类偏好的问题。现有奖励模型通常缺乏对人类偏好背后原则的理解,导致模型训练效率低下,且难以泛化到未见过的场景。现有方法依赖大量人工标注数据,成本高昂,且标注质量难以保证。
核心思路:论文的核心思路是利用公理化方法,将人类偏好分解为一系列可解释的原则(公理),并基于这些公理生成训练数据。通过在这些公理化数据上训练奖励模型,使其能够学习到更鲁棒、更符合人类直觉的偏好表示。这种方法旨在减少对大量人工标注数据的依赖,并提高模型的泛化能力。
技术框架:整体框架包括以下几个主要步骤:1) 定义一组反映人类偏好的公理;2) 基于这些公理,自动生成大量的训练数据对,每个数据对包含两个答案,以及它们之间的偏好关系;3) 使用生成的训练数据训练一个偏好模型,该模型能够对给定的答案进行评分,并预测它们之间的偏好关系;4) 使用训练好的偏好模型对长文本问答系统的输出进行排序,选择最符合人类偏好的答案。
关键创新:最重要的技术创新点在于提出了一个公理化框架,用于生成训练数据。与传统的依赖人工标注数据的方法不同,该框架能够自动生成大量的、符合特定原则的训练数据,从而降低了对人工标注的依赖,并提高了模型的训练效率。此外,该方法还能够帮助模型学习到更鲁棒、更符合人类直觉的偏好表示。
关键设计:论文中,公理的选择至关重要,需要仔细考虑哪些原则能够有效地反映人类的偏好。损失函数的设计也需要特别注意,需要确保模型能够学习到正确的偏好关系。此外,模型结构的选择也需要根据具体的任务进行调整。论文中使用的偏好模型是一个相对较小的模型(约2.2亿参数),这表明即使是小型模型,也可以通过有效的训练方法,达到甚至超过大型模型的性能。
📊 实验亮点
实验结果表明,使用公理化信号训练的偏好模型,在长文本问答偏好评分任务上,与人类标注的偏好标签的一致性超过了GPT-4。该模型仅包含约2.2亿参数,远小于GPT-4,这表明该方法能够有效地利用少量数据训练出高性能的模型。这一结果突出了公理化建模在偏好学习中的潜力。
🎯 应用场景
该研究成果可应用于各种需要对文本进行排序和选择的场景,例如搜索引擎、推荐系统、对话系统等。通过使用公理化偏好模型,可以更准确地捕捉用户的意图,从而提供更个性化、更符合用户需求的体验。未来,该方法还可以扩展到其他领域,例如图像、视频等,以实现更广泛的应用。
📄 摘要(原文)
The remarkable abilities of large language models (LLMs) like GPT-4 partially stem from post-training processes like Reinforcement Learning from Human Feedback (RLHF) involving human preferences encoded in a reward model. However, these reward models (RMs) often lack direct knowledge of why, or under what principles, the preferences annotations were made. In this study, we identify principles that guide RMs to better align with human preferences, and then develop an axiomatic framework to generate a rich variety of preference signals to uphold them. We use these axiomatic signals to train a model for scoring answers to longform questions. Our approach yields a Preference Model with only about 220M parameters that agrees with gold human-annotated preference labels more often than GPT-4. The contributions of this work include: training a standalone preference model that can score human- and LLM-generated answers on the same scale; developing an axiomatic framework for generating training data pairs tailored to certain principles; and showing that a small amount of axiomatic signals can help small models outperform GPT-4 in preference scoring. We release our model on huggingface: https://huggingface.co/corbyrosset/axiomatic_preference_model