CrowdSelect: Synthetic Instruction Data Selection with Multi-LLM Wisdom

📄 arXiv: 2503.01836v1 📥 PDF

作者: Yisen Li, Lingfeng Yang, Wenxuan Shen, Pan Zhou, Yao Wan, Weiwei Lin, Dongping Chen

分类: cs.CL, cs.AI

发布日期: 2025-03-03

🔗 代码/项目: GITHUB


💡 一句话要点

CrowdSelect:利用多LLM智慧进行合成指令数据选择,提升小模型指令遵循能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 指令遵循 数据选择 多LLM 合成数据 模型蒸馏

📋 核心要点

  1. 现有合成指令数据选择策略依赖单一维度信号,无法充分捕捉指令遵循的复杂性。
  2. CrowdSelect利用多LLM的智慧,提出包含多样化LLM响应和奖励模型评估的基础指标。
  3. 实验表明,CrowdSelect在多个基模型上显著提升了MT-bench和Arena-Hard的性能,达到SOTA。

📝 摘要(中文)

本文提出了一种新的合成指令数据选择方法CrowdSelect,旨在提升小模型指令遵循能力。现有方法主要依赖单一维度信号(如奖励分数、模型困惑度),无法捕捉跨领域指令遵循的复杂性。本文通过利用多LLM的智慧,探索更多样化的信号,提出了三个基础指标,这些指标基于(1)多样化的LLM响应和(2)奖励模型评估。CrowdSelect在此基础上,采用基于聚类的方法来保持响应多样性。实验结果表明,基础指标在多个基模型上持续提升了MT-bench和Arena-Hard的性能。CrowdSelect有效整合所有指标,在Full和LoRA微调中均实现了最先进的性能,在使用Llama-3.2-3b-instruct时,Arena-Hard提升了4.81%,MT-bench提升了11.1%。

🔬 方法详解

问题定义:论文旨在解决如何更有效地从合成指令数据集中选择高质量数据,以提升小模型指令遵循能力的问题。现有方法主要依赖单一维度的信号,例如奖励分数或模型困惑度,这些信号无法全面捕捉指令-响应对的复杂特征,导致选择的数据可能不够多样化,从而限制了小模型的性能。

核心思路:论文的核心思路是利用多个大型语言模型(LLM)的“集体智慧”,从不同角度评估指令-响应对的质量和多样性。通过综合考虑多个LLM的响应和奖励模型的评估结果,可以更全面地了解指令-响应对的特征,从而选择更具代表性和信息量的训练数据。这种方法旨在克服单一维度信号的局限性,提高数据选择的准确性和有效性。

技术框架:CrowdSelect的技术框架主要包含以下几个阶段:1) 生成多样化的LLM响应:对于给定的指令,使用多个不同的LLM生成多个响应。2) 奖励模型评估:使用奖励模型对每个LLM生成的响应进行评估,得到奖励分数。3) 基础指标计算:基于LLM响应和奖励分数,计算三个基础指标,用于衡量指令-响应对的质量和多样性。4) CrowdSelect集成:使用基于聚类的方法,将基础指标集成到一个综合指标CrowdSelect中,以保持响应的多样性。5) 数据选择:根据CrowdSelect指标,从合成指令数据集中选择高质量的数据用于训练小模型。

关键创新:论文的关键创新在于提出了利用多LLM智慧进行合成指令数据选择的方法。与现有方法相比,CrowdSelect能够更全面地捕捉指令-响应对的特征,选择更具代表性和信息量的训练数据。此外,CrowdSelect还采用了基于聚类的方法来保持响应的多样性,进一步提高了数据选择的有效性。

关键设计:论文的关键设计包括:1) 三个基础指标:具体指标的计算方法未知,但强调了利用多LLM响应和奖励模型评估。2) 基于聚类的集成方法:使用聚类算法将基础指标集成到一个综合指标CrowdSelect中,以保持响应的多样性。具体聚类算法和参数设置未知。3) 数据选择策略:根据CrowdSelect指标选择数据,具体选择比例和策略未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CrowdSelect在Full和LoRA微调中均实现了最先进的性能,在使用Llama-3.2-3b-instruct时,Arena-Hard提升了4.81%,MT-bench提升了11.1%。这些结果表明,CrowdSelect能够有效地选择高质量的训练数据,显著提升小模型的指令遵循能力。

🎯 应用场景

CrowdSelect方法可广泛应用于各种需要指令遵循能力的小型语言模型的训练场景,例如智能助手、聊天机器人、代码生成等。通过更有效地选择训练数据,可以显著提升小模型的性能,降低训练成本,并加速模型的部署和应用。该方法还有助于提高模型的泛化能力和鲁棒性,使其能够更好地适应不同的任务和环境。

📄 摘要(原文)

Distilling advanced Large Language Models' instruction-following capabilities into smaller models using a selected subset has become a mainstream approach in model training. While existing synthetic instruction data selection strategies rely mainly on single-dimensional signals (i.e., reward scores, model perplexity), they fail to capture the complexity of instruction-following across diverse fields. Therefore, we investigate more diverse signals to capture comprehensive instruction-response pair characteristics and propose three foundational metrics that leverage Multi-LLM wisdom, informed by (1) diverse LLM responses and (2) reward model assessment. Building upon base metrics, we propose CrowdSelect, an integrated metric incorporating a clustering-based approach to maintain response diversity. Our comprehensive experiments demonstrate that our foundation metrics consistently improve performance across 4 base models on MT-bench and Arena-Hard. CrowdSelect, efficiently incorporating all metrics, achieves state-of-the-art performance in both Full and LoRA fine-tuning, showing improvements of 4.81% on Arena-Hard and 11.1% on MT-bench with Llama-3.2-3b-instruct. We hope our findings will bring valuable insights for future research in this direction. Code are available at https://github.com/listentm/crowdselect.