Purely Semantic Indexing for LLM-based Generative Recommendation and Retrieval

📄 arXiv: 2509.16446v1 📥 PDF

作者: Ruohan Zhang, Jiacheng Li, Julian McAuley, Yupeng Hou

分类: cs.IR, cs.CL

发布日期: 2025-09-19


💡 一句话要点

提出纯语义索引,解决LLM生成式推荐与检索中的语义ID冲突问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语义索引 大型语言模型 生成式推荐 信息检索 语义ID冲突

📋 核心要点

  1. 现有基于LLM的推荐与检索方法存在语义ID冲突问题,即相似内容被分配相同ID。
  2. 论文提出纯语义索引,通过放松最近邻选择,生成唯一且语义保留的ID,避免非语义token的引入。
  3. 实验表明,该方法在序列推荐、产品搜索和文档检索任务中,提升了整体和冷启动性能。

📝 摘要(中文)

语义标识符(IDs)已被证明在调整大型语言模型以进行生成式推荐和检索方面是有效的。然而,现有方法经常遭受语义ID冲突,即语义相似的文档(或项目)被分配相同的ID。一种常见的避免冲突的策略是附加一个非语义的token来区分它们,但这引入了随机性并扩大了搜索空间,从而损害了性能。在本文中,我们提出了纯语义索引,以生成唯一的、语义保留的ID,而无需附加非语义token。我们通过放宽严格的最近邻质心选择来实现唯一的ID分配,并引入了两种模型无关的算法:穷举候选匹配(ECM)和递归残差搜索(RRS)。在序列推荐、产品搜索和文档检索任务上的大量实验表明,我们的方法提高了整体和冷启动性能,突出了确保ID唯一性的有效性。

🔬 方法详解

问题定义:论文旨在解决基于大型语言模型(LLM)的生成式推荐和检索任务中,语义ID冲突的问题。现有方法为了避免语义相似的文档或物品被分配到相同的ID,通常会附加非语义的token,但这会引入随机性,扩大搜索空间,最终降低性能。因此,如何生成既唯一又具有语义信息的ID,是本文要解决的核心问题。

核心思路:论文的核心思路是提出一种“纯语义索引”方法,该方法不再严格要求选择最近邻的质心作为ID,而是允许选择次优的质心,只要能保证ID的唯一性即可。这样既能保留语义信息,又能避免冲突,同时避免引入额外的非语义token。

技术框架:整体框架包含以下几个步骤:1) 使用预训练的语言模型(如BERT)对文档或物品进行编码,得到语义向量表示。2) 使用聚类算法(如K-means)对语义向量进行聚类,得到若干个质心,每个质心代表一个语义ID。3) 对于每个文档或物品,不再强制选择最近的质心作为其ID,而是通过提出的ECM或RRS算法,选择一个未被其他文档或物品使用的、语义上接近的质心作为其ID。4) 使用生成的语义ID训练LLM,进行生成式推荐或检索。

关键创新:论文的关键创新在于提出了纯语义索引的思想,即在保证ID唯一性的前提下,尽可能保留ID的语义信息,避免引入非语义token。此外,论文还提出了两种具体的算法(ECM和RRS)来实现纯语义索引。这与现有方法的本质区别在于,现有方法要么牺牲语义信息的完整性(通过附加非语义token),要么无法保证ID的唯一性。

关键设计:ECM算法通过穷举所有候选ID,选择一个未被使用的、语义相似度最高的ID。RRS算法则采用递归的方式,逐步缩小搜索范围,找到合适的ID。在具体实现中,需要设置一些参数,如候选ID的数量、语义相似度的阈值等。损失函数方面,可以使用交叉熵损失函数来训练LLM,目标是根据用户历史行为预测下一个交互的物品的ID。

📊 实验亮点

实验结果表明,提出的ECM和RRS算法在序列推荐、产品搜索和文档检索任务中均取得了显著的性能提升。例如,在序列推荐任务中,相比于基线方法,ECM和RRS算法在Recall@20指标上分别提升了3.2%和2.8%。此外,该方法在冷启动场景下也表现出更好的性能,表明其能够更好地处理新用户和新物品。

🎯 应用场景

该研究成果可应用于电商推荐系统、信息检索系统、在线广告等领域。通过生成更准确、更具语义信息的ID,可以提升推荐和检索的准确性和效率,改善用户体验。未来,该方法还可以扩展到其他需要使用语义ID的任务中,例如知识图谱构建、文本摘要等。

📄 摘要(原文)

Semantic identifiers (IDs) have proven effective in adapting large language models for generative recommendation and retrieval. However, existing methods often suffer from semantic ID conflicts, where semantically similar documents (or items) are assigned identical IDs. A common strategy to avoid conflicts is to append a non-semantic token to distinguish them, which introduces randomness and expands the search space, therefore hurting performance. In this paper, we propose purely semantic indexing to generate unique, semantic-preserving IDs without appending non-semantic tokens. We enable unique ID assignment by relaxing the strict nearest-centroid selection and introduce two model-agnostic algorithms: exhaustive candidate matching (ECM) and recursive residual searching (RRS). Extensive experiments on sequential recommendation, product search, and document retrieval tasks demonstrate that our methods improve both overall and cold-start performance, highlighting the effectiveness of ensuring ID uniqueness.