Preference Packing: Efficient Preference Optimization for Large Language Models

📄 arXiv: 2602.24082v1 📥 PDF

作者: Jaekyung Cho

分类: cs.CL, cs.AI

发布日期: 2026-02-27


💡 一句话要点

提出Preference Packing,提升LLM偏好优化训练的资源效率

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 偏好优化 资源效率 批次打包 直接偏好优化

📋 核心要点

  1. 现有LLM偏好优化训练在处理重复输入时存在冗余计算,导致资源效率低下。
  2. Preference Packing通过对相同输入提示的偏好数据进行打包,减少重复计算,提升资源利用率。
  3. 实验表明,该方法在文本和图文数据集上均能显著减少训练时间,并可与现有优化方法结合。

📝 摘要(中文)

随着大型语言模型(LLM)规模的持续增长,资源高效的训练优化技术变得越来越重要。特别地,批次打包(batch packing)通常用于预训练和监督微调,以实现资源高效的训练。我们提出了偏好打包(preference packing),这是一种增强训练技术资源效率的方法,该技术使用相同输入提示的不同响应的数据,例如奖励模型或直接偏好优化(DPO)。偏好打包通过减少重复输入提示的注意力操作和减少KV缓存内存使用来提高资源效率。我们在纯文本数据集和包含图像的数据集上进行了实验,实现了至少37%的训练时间减少。值得注意的是,该方法可以与现有的优化技术(如批次排序)结合使用,从而实现3.22倍的加速。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)偏好优化训练过程中,由于存在大量重复的输入提示,导致计算资源和内存资源浪费的问题。例如,在使用奖励模型或直接偏好优化(DPO)等方法时,同一个输入prompt可能对应多个不同的response,这些response都需要进行计算,造成冗余。现有方法没有充分利用这些重复的输入,导致训练效率低下。

核心思路:论文的核心思路是识别并打包具有相同输入提示的偏好数据,从而减少重复计算。具体来说,将具有相同prompt的不同response组合在一起,在计算attention时,只需要计算一次prompt的attention,然后将结果复用到不同的response上,从而减少了attention计算量和KV cache的内存占用。

技术框架:Preference Packing的整体框架可以分为以下几个步骤:1. 数据预处理:识别并分组具有相同输入提示的偏好数据。2. 打包:将同一组内的prompt和不同的response打包成一个新的数据结构。3. 模型训练:在训练过程中,模型只需要计算一次prompt的attention,然后将结果复用到不同的response上。4. 解包:在计算损失函数时,需要将打包的数据解包,得到每个response对应的预测结果。

关键创新:该方法最重要的创新点在于对偏好数据进行打包,从而减少了重复计算,提高了训练效率。与现有方法相比,Preference Packing不需要修改模型结构或训练流程,可以很容易地集成到现有的训练框架中。此外,该方法还可以与现有的优化技术(如批次排序)结合使用,进一步提高训练效率。

关键设计:Preference Packing的关键设计在于如何有效地打包和解包偏好数据。具体来说,论文使用了一种基于索引的数据结构来存储打包后的数据,并设计了相应的打包和解包函数。此外,论文还考虑了不同response长度对训练效率的影响,并提出了一种动态调整batch size的方法,以平衡计算效率和内存占用。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,Preference Packing在文本和图文数据集上均能显著减少训练时间。在文本数据集上,训练时间减少了至少37%。更重要的是,该方法可以与现有的优化技术(如批次排序)结合使用,从而实现3.22倍的加速。这些结果表明,Preference Packing是一种高效且实用的LLM偏好优化训练方法。

🎯 应用场景

Preference Packing可广泛应用于各种需要进行偏好优化的LLM训练场景,例如奖励模型训练、DPO训练等。该方法能够有效降低训练成本,缩短训练周期,并提升模型性能。尤其是在处理大规模数据集和复杂模型时,其优势更加明显。未来,该技术有望推动LLM在对话系统、文本生成、内容推荐等领域的更广泛应用。

📄 摘要(原文)

Resource-efficient training optimization techniques are becoming increasingly important as the size of large language models (LLMs) continues to grow. In particular, batch packing is commonly used in pre-training and supervised fine-tuning to achieve resource-efficient training. We propose preference packing, a method to enhance resource efficiency in training techniques that use data with different responses for the same input prompt, such as reward models or Direct Preference Optimization (DPO). Preference packing improves resource efficiency by reducing the attention operations for duplicate input prompts and decreasing KV cache memory usage. We conducted experiments on text-only datasets and image-included datasets and achieved at least 37% reduction in training time. Notably, this method can be applied alongside existing optimization techniques such as batch sorting, resulting in a 3.22x speedup.