ActiveUltraFeedback: Efficient Preference Data Generation using Active Learning

📄 arXiv: 2603.09692v1 📥 PDF

作者: Davit Melikidze, Marian Schneider, Jessica Lam, Martin Wertich, Ido Hakimi, Barna Pásztor, Andreas Krause

分类: cs.LG, cs.AI, cs.CL

发布日期: 2026-03-10

备注: 35 pages, 6 figures, 24 tables

🔗 代码/项目: GITHUB | HUGGINGFACE


💡 一句话要点

提出ActiveUltraFeedback,利用主动学习高效生成偏好数据,提升LLM对齐效率。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 主动学习 人类反馈强化学习 大型语言模型 偏好数据 不确定性估计

📋 核心要点

  1. RLHF对齐LLM效果显著,但获取高质量偏好数据的成本高昂,尤其在低资源或专业领域。
  2. ActiveUltraFeedback利用主动学习,通过不确定性估计动态选择最具信息量的响应进行标注。
  3. 实验表明,该方法能以更少的数据获得可比甚至更优的下游任务性能,显著提升数据效率。

📝 摘要(中文)

人类反馈强化学习(RLHF)已成为对齐大型语言模型(LLM)的标准方法,但其有效性受到获取偏好数据的高成本限制,尤其是在低资源和专家领域。为了解决这个问题,我们引入了ACTIVEULTRAFEEDBACK,这是一个模块化的主动学习流程,它利用不确定性估计来动态识别最适合注释的响应。我们的流程有助于系统地评估标准响应选择方法,以及DOUBLE REVERSE THOMPSON SAMPLING (DRTS)和DELTAUCB这两种新方法,它们优先考虑具有较大预测质量差距的响应对,利用最近的结果表明,这样的响应对为微调提供了良好的信号。我们的实验表明,ACTIVEULTRAFEEDBACK产生高质量的数据集,从而显著提高下游性能,值得注意的是,相对于静态基线,仅用六分之一的注释数据即可获得相当或更好的结果。我们的流程可在https://github.com/lasgroup/ActiveUltraFeedback 获得,我们的偏好数据集可在https://huggingface.co/ActiveUltraFeedback 获得。

🔬 方法详解

问题定义:现有RLHF方法在对齐大型语言模型时,需要大量的人工标注偏好数据,成本高昂,尤其是在数据稀缺或需要专家知识的领域。静态的数据收集方法效率低下,无法充分利用有限的标注资源。

核心思路:ActiveUltraFeedback的核心在于利用主动学习的思想,通过模型的不确定性估计来选择最具信息量的样本进行标注。这样可以避免对大量冗余或无信息的样本进行标注,从而提高数据效率,降低标注成本。优先选择模型预测质量差距大的响应对,因为这些样本能为模型微调提供更强的信号。

技术框架:ActiveUltraFeedback是一个模块化的主动学习流程,主要包含以下几个阶段:1) 响应生成:利用LLM生成多个候选响应。2) 不确定性估计:使用模型对每个响应的质量进行预测,并估计预测的不确定性。3) 样本选择:基于不确定性估计,选择最具信息量的响应对进行标注。论文提出了DRTS和DELTAUCB两种新的样本选择方法。4) 人工标注:人工标注员对选择的响应对进行偏好排序。5) 模型更新:利用标注数据对LLM进行微调。

关键创新:该论文的关键创新在于提出了ActiveUltraFeedback这一主动学习框架,并设计了DRTS和DELTAUCB两种新的样本选择方法。DRTS方法结合了Thompson Sampling和Reverse Thompson Sampling,旨在选择模型最不确定的响应对。DELTAUCB方法则优先选择预测质量差距最大的响应对,并结合UCB算法来平衡探索和利用。

关键设计:DRTS方法通过对每个响应的质量进行采样,并计算采样结果的差异来选择样本。DELTAUCB方法则使用UCB算法来估计每个响应的质量上限,并选择质量上限差距最大的响应对。论文还详细描述了如何使用这些方法来构建偏好数据集,并用于微调LLM。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ActiveUltraFeedback能够以更少的数据获得可比甚至更优的下游任务性能。例如,在某些任务上,使用ActiveUltraFeedback标注的数据量仅为静态基线的六分之一,即可达到相同的性能水平。DRTS和DELTAUCB两种新的样本选择方法也表现出优于传统方法的性能。

🎯 应用场景

ActiveUltraFeedback可应用于各种需要人类反馈来对齐LLM的场景,例如对话系统、文本生成、代码生成等。尤其适用于低资源语言或需要专业知识的领域,能够显著降低标注成本,提高模型性能。该方法还有助于提升LLM的安全性,避免生成有害或不当内容。

📄 摘要(原文)

Reinforcement Learning from Human Feedback (RLHF) has become the standard for aligning Large Language Models (LLMs), yet its efficacy is bottlenecked by the high cost of acquiring preference data, especially in low-resource and expert domains. To address this, we introduce ACTIVEULTRAFEEDBACK, a modular active learning pipeline that leverages uncertainty estimates to dynamically identify the most informative responses for annotation. Our pipeline facilitates the systematic evaluation of standard response selection methods alongside DOUBLE REVERSE THOMPSON SAMPLING (DRTS) and DELTAUCB, two novel methods prioritizing response pairs with large predicted quality gaps, leveraging recent results showing that such pairs provide good signals for fine-tuning. Our experiments demonstrate that ACTIVEULTRAFEEDBACK yields high-quality datasets that lead to significant improvements in downstream performance, notably achieving comparable or superior results with as little as one-sixth of the annotated data relative to static baselines. Our pipeline is available at https://github.com/lasgroup/ActiveUltraFeedback and our preference datasets at https://huggingface.co/ActiveUltraFeedback.