Position-Aware Drafting for Inference Acceleration in LLM-Based Generative List-Wise Recommendation
作者: Jiaju Chen, Chongming Gao, Chenxiao Fan, Haoyan Liu, Qingpeng Cai, Peng Jiang, Xiangnan He
分类: cs.IR, cs.AI
发布日期: 2026-04-30
💡 一句话要点
PAD-Rec:针对LLM生成式列表推荐的位置感知草稿加速推理
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 生成式推荐 推测解码 位置感知 推理加速
📋 核心要点
- LLM生成式推荐解码过程串行,推理速度慢,现有推测解码方法未充分考虑推荐场景中token的位置信息。
- PAD-Rec通过项目位置嵌入和步骤位置嵌入,增强草稿模型对token位置和推测深度的感知能力,提升草稿质量。
- 实验表明,PAD-Rec在四个数据集上实现了高达3.1倍的加速,相比现有推测解码方法平均提升约5%的加速效果。
📝 摘要(中文)
基于大型语言模型(LLM)的生成式列表推荐发展迅速,但解码过程仍然是顺序的,因此容易产生延迟。为了在不改变目标分布的情况下加速推理,推测解码(SD)使用一个小型的草稿模型一次性提出多个token,并使用目标LLM验证并接受最长的前缀,从而跳过每个回合的多个步骤。然而,在生成式推荐中,每个项目由多个语义-ID token表示,通常带有分隔符,而当前的草稿模型通常将这些token同等对待。这忽略了两个实际情况:(i)token的语义取决于其在项目中的位置,以及(ii)不确定性往往随着推测深度的增加而增加。由于没有对这些影响进行建模,SD的加速效果可能会受到限制。我们引入了PAD-Rec,即用于生成式推荐的位置感知草稿,这是一个轻量级模块,它使用两个互补信号来增强草稿模型。项目位置嵌入显式地编码每个token在项目中的位置,从而加强结构感知。步骤位置嵌入编码草稿步骤,允许模型适应深度依赖的不确定性并提高提议质量。为了协调这些信号与基本特征,我们添加了简单的门控:项目位置的可学习系数和草稿步骤的上下文驱动门控。该模块是可训练的,易于与标准草稿模型集成,并且增加了可忽略不计的推理开销。在四个真实世界数据集上的大量实验表明,与强大的SD基线相比,PAD-Rec实现了高达3.1倍的实际加速,并且平均实际加速增益约为5%,同时在很大程度上保持了推荐质量。
🔬 方法详解
问题定义:论文旨在解决基于LLM的生成式列表推荐中,由于解码过程的串行性导致的推理速度慢的问题。现有的推测解码方法在应用于推荐场景时,忽略了推荐列表中token的位置信息,导致草稿模型生成的token质量不高,限制了加速效果。
核心思路:论文的核心思路是通过增强草稿模型对token位置信息的感知能力,从而提高草稿模型生成token的准确性,进而提升推测解码的加速效果。具体来说,论文提出了项目位置嵌入和步骤位置嵌入两种方法,分别编码token在推荐项目中的位置和推测的深度。
技术框架:PAD-Rec是一个轻量级的模块,可以集成到现有的草稿模型中。其主要包含以下几个部分:1) 项目位置嵌入:用于编码token在推荐项目中的位置信息。2) 步骤位置嵌入:用于编码推测的深度信息。3) 门控机制:用于协调项目位置嵌入和步骤位置嵌入与基本特征之间的关系。整体流程是,首先使用项目位置嵌入和步骤位置嵌入增强草稿模型的输入特征,然后草稿模型生成候选token,最后使用目标LLM验证并接受最长的前缀。
关键创新:论文的关键创新在于提出了项目位置嵌入和步骤位置嵌入两种方法,用于增强草稿模型对token位置信息的感知能力。与现有方法相比,PAD-Rec能够更准确地捕捉推荐列表中token之间的关系,从而提高草稿模型生成token的准确性。
关键设计:项目位置嵌入使用可学习的嵌入向量来表示token在推荐项目中的位置。步骤位置嵌入也使用可学习的嵌入向量来表示推测的深度。为了协调项目位置嵌入和步骤位置嵌入与基本特征之间的关系,论文使用了门控机制。具体来说,对于项目位置嵌入,使用一个可学习的系数来控制其对最终特征的影响。对于步骤位置嵌入,使用一个上下文驱动的门控机制来控制其对最终特征的影响。
🖼️ 关键图片
📊 实验亮点
实验结果表明,PAD-Rec在四个真实世界数据集上实现了显著的加速效果。与强大的推测解码基线相比,PAD-Rec实现了高达3.1倍的实际加速,并且平均实际加速增益约为5%,同时在很大程度上保持了推荐质量。这些结果表明,PAD-Rec是一种有效的加速LLM生成式推荐推理的方法。
🎯 应用场景
该研究成果可应用于各种基于LLM的生成式推荐系统,例如电商推荐、音乐推荐、电影推荐等。通过加速推理过程,可以显著降低推荐系统的延迟,提升用户体验,并降低计算成本。该方法具有广泛的应用前景和实际价值。
📄 摘要(原文)
Large language model (LLM)-based generative list-wise recommendation has advanced rapidly, but decoding remains sequential and thus latency-prone. To accelerate inference without changing the target distribution, speculative decoding (SD) uses a small draft model to propose several next tokens at once and a target LLM to verify and accept the longest prefix, skipping multiple steps per round. In generative recommendation, however, each item is represented by multiple semantic-ID tokens, often with separators, and current drafts typically treat these tokens uniformly. This overlooks two practical facts: (i) a token's semantics depend on its within-item slot, and (ii) uncertainty tends to increase with speculation depth. Without modeling these effects, SD's speedups can be limited. We introduce PAD-Rec, Position-Aware Drafting for generative Recommendation, a lightweight module that augments the draft model with two complementary signals. Item position embeddings explicitly encode the within-item slot of each token, strengthening structural awareness. Step position embeddings encode the draft step, allowing the model to adapt to depth-dependent uncertainty and improve proposal quality. To harmonize these signals with base features, we add simple gates: a learnable coefficient for item slots and a context-driven gate for draft steps. The module is trainable, easy to integrate with standard draft models, and adds negligible inference overhead. Extensive experiments on four real-world datasets show up to 3.1x wall-clock speedup and about 5% average wall-clock speedup gain over strong SD baselines, while largely preserving recommendation quality.