GRACE: Generative Recommendation via Journey-Aware Sparse Attention on Chain-of-Thought Tokenization
作者: Luyi Ma, Wanjia Zhang, Kai Zhao, Abhishek Kulkarni, Lalitesh Morishetti, Anjana Ganesh, Ashish Ranjan, Aashika Padmanabhan, Jianpeng Xu, Jason Cho, Praveen Kanumala, Kaushiki Nag, Sumit Dutta, Kamiya Motwani, Malay Patel, Evren Korpeoglu, Sushant Kumar, Kannan Achan
分类: cs.CL, cs.AI, cs.IR
发布日期: 2025-07-19
备注: 10 pages, 5 figures, The ACM Conference on Recommender Systems (RecSys) 2025
💡 一句话要点
GRACE:通过行为链式推理和旅程感知稀疏注意力实现生成式推荐
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 生成式推荐 序列推荐 链式思考 稀疏注意力 知识图谱
📋 核心要点
- 现有生成式推荐模型缺乏显式Token推理信息,计算成本高,且对用户历史的多尺度建模能力有限。
- GRACE通过混合链式思考Token化方法,利用产品知识图属性,实现可解释且行为对齐的序列生成。
- 实验表明,GRACE在两个数据集上显著优于现有方法,性能提升显著,并降低了注意力计算成本。
📝 摘要(中文)
生成式模型最近在多行为推荐系统中展现出强大的潜力,利用Transformer的表达能力和Token化来生成个性化的物品序列。然而,它们的采用受到以下因素的阻碍:(1)缺乏用于Token推理的显式信息;(2)由于二次注意力复杂度和Token化后的密集序列表示,计算成本高昂;(3)对用户历史的多尺度建模有限。本文提出了GRACE(Generative Recommendation via journey-aware sparse Attention on Chain-of-thought tokEnization),这是一种用于多行为序列推荐的新型生成框架。GRACE引入了一种混合的链式思考(CoT)Token化方法,该方法通过语义Token化编码用户-物品交互,并包含来自产品知识图的显式属性(例如,类别、品牌、价格),从而实现可解释且行为对齐的生成。为了解决标准注意力的低效率问题,我们设计了一种旅程感知稀疏注意力(JSA)机制,该机制选择性地关注Token化序列中压缩的、内部的、相互的和当前的上下文片段。在两个真实世界数据集上的实验表明,GRACE显著优于最先进的基线,在Home领域上,HR@10和NDCG@10分别提高了高达+106.9%和+106.7%,在Electronics领域上,HR@10提高了+22.1%。GRACE还在长序列中将注意力计算量减少了高达48%。
🔬 方法详解
问题定义:现有生成式推荐模型在多行为序列推荐中面临三个主要问题:缺乏显式的Token推理信息,导致模型难以理解用户行为背后的原因;标准注意力机制计算复杂度高,尤其是在处理长序列时;对用户历史的多尺度建模能力不足,无法充分利用用户行为序列中的信息。这些问题限制了生成式推荐模型在实际应用中的效果。
核心思路:GRACE的核心思路是通过引入链式思考(CoT)Token化方法,将用户-物品交互与产品知识图属性相结合,从而为模型提供更丰富的上下文信息,提高Token推理能力。同时,设计旅程感知稀疏注意力(JSA)机制,减少注意力计算量,提高模型效率。通过这种方式,GRACE能够更好地理解用户行为,生成更准确的推荐序列。
技术框架:GRACE的整体框架包括以下几个主要模块:1) 混合链式思考(CoT)Token化模块,用于将用户-物品交互序列转换为包含显式属性信息的Token序列;2) 旅程感知稀疏注意力(JSA)模块,用于选择性地关注Token序列中的关键片段,减少计算量;3) 生成器模块,用于根据Token序列生成推荐物品序列。整个流程首先通过CoT Token化将用户行为序列转化为带有属性信息的Token序列,然后通过JSA模块提取关键信息,最后由生成器生成推荐结果。
关键创新:GRACE最重要的技术创新点在于混合链式思考(CoT)Token化方法和旅程感知稀疏注意力(JSA)机制。CoT Token化方法通过引入产品知识图属性,为模型提供了更丰富的上下文信息,使得模型能够更好地理解用户行为。JSA机制通过选择性地关注Token序列中的关键片段,减少了注意力计算量,提高了模型效率。与现有方法相比,GRACE能够更好地理解用户行为,生成更准确的推荐序列,并且具有更高的计算效率。
关键设计:在CoT Token化方法中,论文设计了特定的Token格式,将用户-物品交互与产品知识图属性(如类别、品牌、价格)相结合。在JSA机制中,论文设计了压缩、内部、相互和当前上下文片段的选择策略,以及相应的注意力权重计算方法。损失函数方面,论文采用了标准的交叉熵损失函数,并可能结合了其他正则化项,以提高模型的泛化能力。具体的网络结构细节(如Transformer层数、隐藏层大小等)未知。
🖼️ 关键图片
📊 实验亮点
GRACE在两个真实世界数据集上取得了显著的性能提升。在Home领域,HR@10和NDCG@10分别提高了高达+106.9%和+106.7%,在Electronics领域,HR@10提高了+22.1%。此外,GRACE还在长序列中将注意力计算量减少了高达48%。这些结果表明,GRACE在提高推荐准确性和效率方面具有显著优势。
🎯 应用场景
GRACE可应用于各种电子商务平台和推荐系统,尤其是在需要考虑用户行为背后的原因和产品属性的场景下。例如,可以用于个性化商品推荐、智能导购、用户行为分析等。该研究的实际价值在于提高推荐系统的准确性和效率,从而提升用户体验和平台收益。未来,GRACE可以进一步扩展到其他领域,如社交媒体推荐、新闻推荐等。
📄 摘要(原文)
Generative models have recently demonstrated strong potential in multi-behavior recommendation systems, leveraging the expressive power of transformers and tokenization to generate personalized item sequences. However, their adoption is hindered by (1) the lack of explicit information for token reasoning, (2) high computational costs due to quadratic attention complexity and dense sequence representations after tokenization, and (3) limited multi-scale modeling over user history. In this work, we propose GRACE (Generative Recommendation via journey-aware sparse Attention on Chain-of-thought tokEnization), a novel generative framework for multi-behavior sequential recommendation. GRACE introduces a hybrid Chain-of-Thought (CoT) tokenization method that encodes user-item interactions with explicit attributes from product knowledge graphs (e.g., category, brand, price) over semantic tokenization, enabling interpretable and behavior-aligned generation. To address the inefficiency of standard attention, we design a Journey-Aware Sparse Attention (JSA) mechanism, which selectively attends to compressed, intra-, inter-, and current-context segments in the tokenized sequence. Experiments on two real-world datasets show that GRACE significantly outperforms state-of-the-art baselines, achieving up to +106.9% HR@10 and +106.7% NDCG@10 improvement over the state-of-the-art baseline on the Home domain, and +22.1% HR@10 on the Electronics domain. GRACE also reduces attention computation by up to 48% with long sequences.