ReaSeq: Unleashing World Knowledge via Reasoning for Sequential Modeling

📄 arXiv: 2512.21257v2 📥 PDF

作者: Jiakai Tang, Chuan Wang, Gaoming Yang, Han Wu, Jiahao Yu, Jian Wu, Jianwu Hu, Junjun Zheng, Longbin Li, Shuwen Xiao, Xiangheng Kong, Yeqiu Yang, Yuning Jiang, Ahjol Nurlanbek, Binbin Cao, Bo Zheng, Fangmei Zhu, Gaoming Zhou, Huimin Yi, Huiping Chu, Jin Huang, Jinzhe Shan, Kenan Cui, Longbin Li, Silu Zhou, Wen Chen, Xia Ming, Xiang Gao, Xin Yao, Xingyu Wen, Yan Zhang, Yiwen Hu, Yulin Wang, Ziheng Bao, Zongyuan Wu

分类: cs.IR, cs.CL

发布日期: 2025-12-24 (更新: 2025-12-29)


💡 一句话要点

ReaSeq:通过推理释放世界知识,用于序列建模,提升推荐系统性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 推荐系统 大型语言模型 世界知识 推理 序列建模

📋 核心要点

  1. 现有推荐系统依赖日志数据,面临ID表示知识贫乏和忽略日志外用户兴趣的挑战。
  2. ReaSeq利用大型语言模型的世界知识,通过显式和隐式推理增强推荐系统。
  3. 在淘宝推荐系统上的实验表明,ReaSeq在IPV、CTR、订单和GMV方面均有显著提升。

📝 摘要(中文)

工业推荐系统在日志驱动的范式下面临两个根本限制:(1)基于ID的物品表示缺乏知识,导致数据稀疏时兴趣建模脆弱;(2)系统性地忽略了日志之外的用户兴趣,限制了模型在平台边界内的性能。这些限制源于过度依赖浅层交互统计和闭环反馈,而忽略了大型语言模型从海量语料库中学习到的关于产品语义和跨领域行为模式的丰富世界知识。为了解决这些挑战,我们引入了ReaSeq,一个推理增强框架,它利用大型语言模型中的世界知识,通过显式和隐式推理来解决这两个限制。具体来说,ReaSeq采用通过多智能体协作的显式思维链推理,将结构化的产品知识提炼成语义丰富的物品表示,并通过扩散大型语言模型进行潜在推理,以推断合理的日志之外的行为。ReaSeq部署在淘宝的排名系统上,服务于数亿用户,取得了显著的收益:IPV和CTR>6.0%,订单>2.9%,GMV>2.5%,验证了世界知识增强推理相对于纯日志驱动方法的有效性。

🔬 方法详解

问题定义:工业推荐系统过度依赖用户行为日志,导致两个主要问题:一是物品ID表示缺乏语义知识,使得模型在数据稀疏的情况下难以准确捕捉用户兴趣;二是模型无法感知用户在平台之外的潜在兴趣,导致推荐效果受限。现有方法难以有效利用大型语言模型中蕴含的丰富世界知识。

核心思路:ReaSeq的核心思想是利用大型语言模型(LLM)中蕴含的世界知识,通过显式和隐式推理来增强推荐系统。显式推理通过思维链(Chain-of-Thought)的方式,将结构化的产品知识提炼成语义丰富的物品表示;隐式推理则通过扩散模型,推断用户在日志之外的潜在行为。

技术框架:ReaSeq框架包含两个主要模块:一是显式推理模块,采用多智能体协作的方式,利用LLM进行思维链推理,提取产品知识并丰富物品表示;二是隐式推理模块,使用扩散大型语言模型(Diffusion LLM)来推断用户可能的未记录行为。这两个模块共同作用,提升推荐系统的性能。

关键创新:ReaSeq的关键创新在于将大型语言模型的世界知识引入推荐系统,并设计了显式和隐式两种推理方式。与传统的基于ID的推荐方法相比,ReaSeq能够更好地理解产品语义和用户潜在兴趣,从而提高推荐的准确性和多样性。

关键设计:在显式推理模块中,设计了多智能体协作机制,每个智能体负责提取不同方面的产品知识,并通过思维链的方式进行推理。在隐式推理模块中,采用了扩散模型来生成用户可能的未记录行为,并将其融入到推荐模型中。具体的损失函数和网络结构细节未在摘要中详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ReaSeq在淘宝推荐系统上进行了部署,服务于数亿用户。实验结果表明,ReaSeq在IPV和CTR方面取得了超过6.0%的提升,在订单方面取得了超过2.9%的提升,在GMV方面取得了超过2.5%的提升。这些结果充分验证了ReaSeq的有效性,表明世界知识增强推理能够显著优于纯日志驱动的方法。

🎯 应用场景

ReaSeq具有广泛的应用前景,可应用于电商、新闻、视频等各种推荐场景。通过引入世界知识和推理能力,ReaSeq能够显著提升推荐系统的性能,改善用户体验,并为平台带来更高的商业价值。未来,ReaSeq还可以扩展到其他序列建模任务中,例如自然语言处理和机器人控制。

📄 摘要(原文)

Industrial recommender systems face two fundamental limitations under the log-driven paradigm: (1) knowledge poverty in ID-based item representations that causes brittle interest modeling under data sparsity, and (2) systemic blindness to beyond-log user interests that constrains model performance within platform boundaries. These limitations stem from an over-reliance on shallow interaction statistics and close-looped feedback while neglecting the rich world knowledge about product semantics and cross-domain behavioral patterns that Large Language Models have learned from vast corpora. To address these challenges, we introduce ReaSeq, a reasoning-enhanced framework that leverages world knowledge in Large Language Models to address both limitations through explicit and implicit reasoning. Specifically, ReaSeq employs explicit Chain-of-Thought reasoning via multi-agent collaboration to distill structured product knowledge into semantically enriched item representations, and latent reasoning via Diffusion Large Language Models to infer plausible beyond-log behaviors. Deployed on Taobao's ranking system serving hundreds of millions of users, ReaSeq achieves substantial gains: >6.0% in IPV and CTR, >2.9% in Orders, and >2.5% in GMV, validating the effectiveness of world-knowledge-enhanced reasoning over purely log-driven approaches.