PreFT: Prefill-only finetuning for efficient inference

📄 arXiv: 2605.14217v1 📥 PDF

作者: Andrew Lanpouthakoun, Aryaman Arora, Zhengxuan Wu, Dhruv Pai, Ben Keigwin, Dan Jurafsky, Christopher Potts

分类: cs.LG, cs.AI, cs.CL, eess.SY

发布日期: 2026-05-14


💡 一句话要点

提出PreFT以解决多适配器服务效率问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 参数高效微调 预填充微调 多适配器服务 吞吐量优化 个性化语言模型

📋 核心要点

  1. 现有的参数高效微调方法在服务用户特定模型时,吞吐量显著下降,影响了多用户的并发处理能力。
  2. 本文提出PreFT方法,仅在预填充阶段应用适配器,旨在优化服务吞吐量而非参数数量,从而提高多适配器服务的效率。
  3. 实验结果表明,PreFT在多个任务中表现出色,尤其是在吞吐量上比传统PEFT提高了1.9倍,同时在强化学习任务中接近标准PEFT的性能。

📝 摘要(中文)

大型语言模型可以通过参数高效微调方法(PEFTs)实现个性化,但用户特定的PEFT在服务时会降低吞吐量。本文提出PreFT(仅预填充微调),只在预填充阶段应用适配器,显著提高吞吐量且对性能影响较小。我们在vLLM推理引擎上实现了两种预填充PEFT(LoRA和ReFT),并展示了在Llama 3.1 70B上服务512个适配器时,PreFT的吞吐量比传统PEFT高出1.9倍。通过对比不同规模语言模型的监督微调和强化学习任务,发现PreFT在性能上接近标准PEFT,验证了其在个性化服务中的优势。

🔬 方法详解

问题定义:本文旨在解决在多用户环境下,传统参数高效微调方法(PEFTs)导致的吞吐量下降问题。现有方法在处理大量适配器时,性能受限于解码过程,无法有效支持高并发服务。

核心思路:提出PreFT(仅预填充微调)方法,设计上只在预填充阶段应用适配器,之后不再使用,从而优化服务吞吐量,提升多适配器的处理效率。

技术框架:PreFT的整体架构包括预填充阶段和解码阶段。在预填充阶段,应用适配器处理大量输入token;在解码阶段,适配器被丢弃,直接生成输出token。

关键创新:PreFT的核心创新在于仅在预填充阶段使用适配器,避免了传统方法在解码阶段的性能瓶颈。这一设计使得在多适配器服务中,吞吐量显著提升。

关键设计:在实现中,PreFT采用了LoRA和ReFT两种预填充PEFT方法,关键参数设置和损失函数经过优化,以确保在提高吞吐量的同时,尽量减少对模型性能的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,PreFT在服务512个适配器时的吞吐量比传统PEFT高出1.9倍。在监督微调任务中,PreFT的评估损失虽高于PEFT,但通过增加秩可以几乎不降低吞吐量。在强化学习任务中,PreFT的性能接近标准PEFT,验证了其有效性。

🎯 应用场景

该研究的潜在应用场景包括个性化语言模型服务、在线教育、客户服务等领域。通过提高多用户适配器的服务效率,PreFT能够支持更高并发的用户请求,提升用户体验,具有重要的实际价值和广阔的应用前景。

📄 摘要(原文)

Large language models can now be personalised efficiently at scale using parameter efficient finetuning methods (PEFTs), but serving user-specific PEFTs harms throughput, even with specialised kernels and memory management techniques. This is because, theoretically and empirically, a mismatch exists between prefill (processing a large number of tokens at once) and decode (generating a single token autoregressively): the latter has far lower throughput when serving multiple adapters. Rather than optimising performance relative to parameter count, for efficient multi-adapter serving, we instead ought to optimise performance relative to serving throughput. We therefore propose PreFT (Prefill-only Finetuning), wherein we only apply the adapter to prefill tokens and discard it afterwards. PreFT significantly increases throughput with minimal effect on performance. We develop and release an efficient implementation of two prefill-only PEFTs, LoRA and ReFT, on the vLLM inference engine. We first show that serving multi-user PreFTs is more efficient than traditional PEFTs ($1.9\times$ the throughput when serving $512$ adapters on Llama 3.1 70B). Then, we compare the performance of prefill-only vs. all-token adapters on a variety of supervised finetuning and reinforcement learning tasks with LMs at varying scales. On SFT, we observe that the evaluation loss of PreFTs is higher than PEFTs, but can be compensated by increasing rank with nearly no reduction in throughput. On RL, we consistently find that PreFTs approach parity with standard PEFTs. Together, this work validates prefill-only adaptation of LLMs as a more favourable accuracy-throughput tradeoff than existing PEFTs for personalised serving.