Deep Bayesian Active Learning for Preference Modeling in Large Language Models

📄 arXiv: 2406.10023v2 📥 PDF

作者: Luckeciano C. Melo, Panagiotis Tigas, Alessandro Abate, Yarin Gal

分类: cs.LG, cs.CL, stat.ML

发布日期: 2024-06-14 (更新: 2024-10-28)

备注: 38th Conference on Neural Information Processing Systems (NeurIPS 2024)


💡 一句话要点

提出BAL-PM,通过主动学习优化LLM偏好建模,显著降低标注成本。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 主动学习 贝叶斯优化 偏好建模 大型语言模型 不确定性估计

📋 核心要点

  1. 现有偏好建模方法在数据选择上存在瓶颈,朴素的认知不确定性估计导致选择冗余样本。
  2. BAL-PM通过最大化提示分布熵,选择信息量大且多样性高的样本,提升学习效率。
  3. 实验表明,BAL-PM在人类偏好数据集上,显著减少了所需的偏好标签数量,优于现有方法。

📝 摘要(中文)

近年来,利用人类偏好来引导大型语言模型(LLM)的行为已取得了显著成功。然而,数据选择和标注仍然是这些系统的瓶颈,尤其是在大规模情况下。因此,选择最具信息量的样本来获取人类反馈可以显著降低偏好标注的成本,并进一步推动LLM的发展。贝叶斯主动学习为解决这一挑战提供了一个原则性框架,并在各种设置中取得了显著成功。然而,之前尝试将其用于偏好建模的尝试并未达到预期效果。在这项工作中,我们发现朴素的认知不确定性估计会导致冗余样本的获取。我们通过提出用于偏好建模的贝叶斯主动学习器(BAL-PM)来解决这个问题,这是一种新颖的随机获取策略,它不仅针对根据偏好模型具有高认知不确定性的点,而且还寻求最大化所获取的提示分布在所使用的LLM的特征空间中的熵。值得注意的是,我们的实验表明,在两个流行的人类偏好数据集中,BAL-PM需要的偏好标签减少了33%到68%,并且超过了之前的随机贝叶斯获取策略。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)偏好建模中,人工标注成本高昂的问题。现有方法在主动学习中,简单地使用认知不确定性来选择样本,导致选择了大量相似或冗余的样本,降低了学习效率,增加了标注负担。

核心思路:论文的核心思路是,在选择用于标注的样本时,不仅要考虑模型对该样本的不确定性,还要考虑所选样本在LLM特征空间中的多样性。通过最大化所选提示分布的熵,确保选择的样本能够覆盖更广阔的特征空间,从而提高模型的泛化能力。

技术框架:BAL-PM 的整体框架包含以下几个主要步骤:1) 使用 LLM 提取 prompt 的特征表示;2) 使用贝叶斯模型(如高斯过程)对人类偏好进行建模;3) 使用提出的随机获取策略(BAL-PM)选择下一批需要标注的 prompt;4) 获取人类标注,并更新贝叶斯模型。重复步骤 1-4,直到模型达到预定的性能指标。

关键创新:BAL-PM 的关键创新在于其提出的随机获取策略,该策略结合了认知不确定性和提示分布熵。传统的基于不确定性的主动学习方法只关注模型对单个样本的不确定性,而 BAL-PM 进一步考虑了样本之间的关系,通过最大化提示分布熵,鼓励选择更多样化的样本。

关键设计:BAL-PM 的获取函数包含两部分:一部分是基于贝叶斯模型预测的认知不确定性,另一部分是基于 LLM 特征空间中提示分布的熵。具体来说,论文使用蒙特卡洛采样来估计认知不确定性,并使用核密度估计来估计提示分布的熵。最终的获取函数是这两部分的加权和,权重参数需要根据具体任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,BAL-PM 在两个流行的人类偏好数据集上,相比于之前的随机贝叶斯获取策略,能够显著减少所需的偏好标签数量,降低幅度达到 33% 到 68%。这表明 BAL-PM 能够更有效地利用有限的标注资源,提升偏好建模的效率。

🎯 应用场景

该研究成果可应用于各种需要利用人类偏好来指导LLM行为的场景,例如对话系统、文本生成、代码生成等。通过降低标注成本,可以更高效地训练出符合人类价值观和需求的LLM,从而提升用户体验和模型安全性。未来,该方法可以进一步扩展到多模态数据和更复杂的偏好建模任务中。

📄 摘要(原文)

Leveraging human preferences for steering the behavior of Large Language Models (LLMs) has demonstrated notable success in recent years. Nonetheless, data selection and labeling are still a bottleneck for these systems, particularly at large scale. Hence, selecting the most informative points for acquiring human feedback may considerably reduce the cost of preference labeling and unleash the further development of LLMs. Bayesian Active Learning provides a principled framework for addressing this challenge and has demonstrated remarkable success in diverse settings. However, previous attempts to employ it for Preference Modeling did not meet such expectations. In this work, we identify that naive epistemic uncertainty estimation leads to the acquisition of redundant samples. We address this by proposing the Bayesian Active Learner for Preference Modeling (BAL-PM), a novel stochastic acquisition policy that not only targets points of high epistemic uncertainty according to the preference model but also seeks to maximize the entropy of the acquired prompt distribution in the feature space spanned by the employed LLM. Notably, our experiments demonstrate that BAL-PM requires 33% to 68% fewer preference labels in two popular human preference datasets and exceeds previous stochastic Bayesian acquisition policies.