Position-Aware Drafting for Inference Acceleration in LLM-Based Generative List-Wise Recommendation

作者: Jiaju Chen, Chongming Gao, Chenxiao Fan, Haoyan Liu, Qingpeng Cai, Peng Jiang, Xiangnan He

分类: cs.IR, cs.AI

发布日期: 2026-04-30

💡 一句话要点

PAD-Rec：针对LLM生成式列表推荐的位置感知草稿加速推理

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 生成式推荐 推测解码 位置感知 推理加速

📋 核心要点

LLM生成式推荐解码过程串行，推理速度慢，现有推测解码方法未充分考虑推荐场景中token的位置信息。
PAD-Rec通过项目位置嵌入和步骤位置嵌入，增强草稿模型对token位置和推测深度的感知能力，提升草稿质量。
实验表明，PAD-Rec在四个数据集上实现了高达3.1倍的加速，相比现有推测解码方法平均提升约5%的加速效果。

📝 摘要（中文）

基于大型语言模型（LLM）的生成式列表推荐发展迅速，但解码过程仍然是顺序的，因此容易产生延迟。为了在不改变目标分布的情况下加速推理，推测解码（SD）使用一个小型的草稿模型一次性提出多个token，并使用目标LLM验证并接受最长的前缀，从而跳过每个回合的多个步骤。然而，在生成式推荐中，每个项目由多个语义-ID token表示，通常带有分隔符，而当前的草稿模型通常将这些token同等对待。这忽略了两个实际情况：（i）token的语义取决于其在项目中的位置，以及（ii）不确定性往往随着推测深度的增加而增加。由于没有对这些影响进行建模，SD的加速效果可能会受到限制。我们引入了PAD-Rec，即用于生成式推荐的位置感知草稿，这是一个轻量级模块，它使用两个互补信号来增强草稿模型。项目位置嵌入显式地编码每个token在项目中的位置，从而加强结构感知。步骤位置嵌入编码草稿步骤，允许模型适应深度依赖的不确定性并提高提议质量。为了协调这些信号与基本特征，我们添加了简单的门控：项目位置的可学习系数和草稿步骤的上下文驱动门控。该模块是可训练的，易于与标准草稿模型集成，并且增加了可忽略不计的推理开销。在四个真实世界数据集上的大量实验表明，与强大的SD基线相比，PAD-Rec实现了高达3.1倍的实际加速，并且平均实际加速增益约为5%，同时在很大程度上保持了推荐质量。

🔬 方法详解

问题定义：论文旨在解决基于LLM的生成式列表推荐中，由于解码过程的串行性导致的推理速度慢的问题。现有的推测解码方法在应用于推荐场景时，忽略了推荐列表中token的位置信息，导致草稿模型生成的token质量不高，限制了加速效果。

核心思路：论文的核心思路是通过增强草稿模型对token位置信息的感知能力，从而提高草稿模型生成token的准确性，进而提升推测解码的加速效果。具体来说，论文提出了项目位置嵌入和步骤位置嵌入两种方法，分别编码token在推荐项目中的位置和推测的深度。

技术框架：PAD-Rec是一个轻量级的模块，可以集成到现有的草稿模型中。其主要包含以下几个部分：1) 项目位置嵌入：用于编码token在推荐项目中的位置信息。2) 步骤位置嵌入：用于编码推测的深度信息。3) 门控机制：用于协调项目位置嵌入和步骤位置嵌入与基本特征之间的关系。整体流程是，首先使用项目位置嵌入和步骤位置嵌入增强草稿模型的输入特征，然后草稿模型生成候选token，最后使用目标LLM验证并接受最长的前缀。

关键创新：论文的关键创新在于提出了项目位置嵌入和步骤位置嵌入两种方法，用于增强草稿模型对token位置信息的感知能力。与现有方法相比，PAD-Rec能够更准确地捕捉推荐列表中token之间的关系，从而提高草稿模型生成token的准确性。

关键设计：项目位置嵌入使用可学习的嵌入向量来表示token在推荐项目中的位置。步骤位置嵌入也使用可学习的嵌入向量来表示推测的深度。为了协调项目位置嵌入和步骤位置嵌入与基本特征之间的关系，论文使用了门控机制。具体来说，对于项目位置嵌入，使用一个可学习的系数来控制其对最终特征的影响。对于步骤位置嵌入，使用一个上下文驱动的门控机制来控制其对最终特征的影响。

🖼️ 关键图片

📊 实验亮点

实验结果表明，PAD-Rec在四个真实世界数据集上实现了显著的加速效果。与强大的推测解码基线相比，PAD-Rec实现了高达3.1倍的实际加速，并且平均实际加速增益约为5%，同时在很大程度上保持了推荐质量。这些结果表明，PAD-Rec是一种有效的加速LLM生成式推荐推理的方法。

🎯 应用场景

该研究成果可应用于各种基于LLM的生成式推荐系统，例如电商推荐、音乐推荐、电影推荐等。通过加速推理过程，可以显著降低推荐系统的延迟，提升用户体验，并降低计算成本。该方法具有广泛的应用前景和实际价值。

📄 摘要（原文）

Large language model (LLM)-based generative list-wise recommendation has advanced rapidly, but decoding remains sequential and thus latency-prone. To accelerate inference without changing the target distribution, speculative decoding (SD) uses a small draft model to propose several next tokens at once and a target LLM to verify and accept the longest prefix, skipping multiple steps per round. In generative recommendation, however, each item is represented by multiple semantic-ID tokens, often with separators, and current drafts typically treat these tokens uniformly. This overlooks two practical facts: (i) a token's semantics depend on its within-item slot, and (ii) uncertainty tends to increase with speculation depth. Without modeling these effects, SD's speedups can be limited. We introduce PAD-Rec, Position-Aware Drafting for generative Recommendation, a lightweight module that augments the draft model with two complementary signals. Item position embeddings explicitly encode the within-item slot of each token, strengthening structural awareness. Step position embeddings encode the draft step, allowing the model to adapt to depth-dependent uncertainty and improve proposal quality. To harmonize these signals with base features, we add simple gates: a learnable coefficient for item slots and a context-driven gate for draft steps. The module is trainable, easy to integrate with standard draft models, and adds negligible inference overhead. Extensive experiments on four real-world datasets show up to 3.1x wall-clock speedup and about 5% average wall-clock speedup gain over strong SD baselines, while largely preserving recommendation quality.

Position-Aware Drafting for Inference Acceleration in LLM-Based Generative List-Wise Recommendation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理