KARMA: Knowledge-Action Regularized Multimodal Alignment for Personalized Search at Taobao

📄 arXiv: 2603.22779v1 📥 PDF

作者: Zhi Sun, Wenming Zhang, Yi Wei, Liren Yu, Zhixuan Zhang, Dan Ou, Haihong Tang

分类: cs.IR, cs.AI

发布日期: 2026-03-24


💡 一句话要点

提出KARMA框架,解决LLM在淘宝个性化搜索中知识与行为的对齐问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 个性化搜索 大型语言模型 语义对齐 知识蒸馏 行为预测

📋 核心要点

  1. 现有方法直接微调LLM在个性化搜索中效果不佳,存在知识与行为对齐的难题,导致语义崩溃。
  2. KARMA框架通过语义重建正则化,优化兴趣嵌入,同时保证语义可解码性,弥合知识-行为差距。
  3. KARMA在淘宝搜索系统中显著提升了CTR、HR等指标,并在线部署实现了Item Click的增长。

📝 摘要(中文)

大型语言模型(LLM)拥有深厚的语义知识,使其成为将语义泛化能力注入个性化搜索系统的理想选择。然而,实践中发现,直接在工业个性化任务(例如,下一个物品预测)上微调LLM通常会产生次优结果。我们将此瓶颈归因于一个关键的知识-行为差距:保持预训练语义知识与通过判别目标对齐特定个性化行为之间的内在冲突。经验表明,仅以行为为导向的训练目标会导致语义崩溃,例如注意力“沉没”。这种退化严重削弱了LLM的泛化能力,无法为个性化搜索系统带来改进。我们提出了KARMA(知识-行为正则化多模态对齐),一个统一的框架,将语义重建视为仅在训练时使用的正则化项。KARMA优化用于检索的下一个兴趣嵌入(行为),同时通过两个互补的目标强制语义可解码性(知识):(i)历史条件语义生成,将优化锚定到LLM的原生下一个token分布;(ii)嵌入条件语义重建,约束兴趣嵌入保持语义可恢复性。在淘宝搜索系统中,KARMA减轻了语义崩溃(注意力沉没分析),并提高了行为指标和语义保真度。在消融实验中,语义可解码性带来了高达+22.5 HR@200的提升。使用KARMA,我们在排序中实现了+0.25 CTR AUC,在预排序中实现了+1.86 HR,在召回中实现了+2.51 HR。KARMA以低推理开销在线部署在排序阶段,推动了Item Click +0.5%的增长。

🔬 方法详解

问题定义:现有方法直接在个性化搜索任务上微调LLM,未能充分利用LLM的预训练语义知识,反而由于行为导向的目标导致语义崩溃,例如注意力沉没。这使得LLM的泛化能力受限,无法有效提升个性化搜索效果。因此,需要解决如何在个性化搜索中有效利用LLM的语义知识,同时避免语义崩溃的问题。

核心思路:KARMA的核心思路是将语义重建作为一种正则化手段,在优化用于检索的兴趣嵌入(行为)的同时,强制模型保持语义可解码性(知识)。通过这种方式,模型既能学习到与用户行为相关的个性化信息,又能保留LLM的预训练语义知识,从而避免语义崩溃。

技术框架:KARMA框架包含两个主要目标:历史条件语义生成和嵌入条件语义重建。历史条件语义生成利用LLM的原生下一个token分布,将优化锚定到LLM的语义空间。嵌入条件语义重建则约束兴趣嵌入,使其能够恢复出原始的语义信息。这两个目标相互补充,共同保证了模型的语义保真度和行为预测能力。整体流程是,首先利用用户历史行为生成兴趣嵌入,然后通过这两个目标进行训练,最终得到优化后的兴趣嵌入用于检索。

关键创新:KARMA的关键创新在于将语义重建作为一种正则化手段,显式地约束模型的语义空间。与直接微调LLM的方法不同,KARMA不是简单地将LLM作为特征提取器,而是通过语义重建目标来引导模型的学习过程,从而避免了语义崩溃。此外,KARMA还提出了两种互补的语义重建目标,进一步提升了模型的性能。

关键设计:KARMA的关键设计包括:(1)历史条件语义生成:使用用户历史行为作为条件,生成下一个token的概率分布,并与LLM的原始分布进行对齐。(2)嵌入条件语义重建:使用兴趣嵌入作为条件,重建用户历史行为的语义信息,并与原始语义信息进行对比。(3)损失函数:采用交叉熵损失函数来衡量生成和重建的误差,并将其作为正则化项添加到总损失函数中。(4)网络结构:使用Transformer作为基础模型,并在此基础上添加了语义重建模块。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

KARMA在淘宝搜索系统中取得了显著的性能提升。在消融实验中,语义可解码性带来了高达+22.5 HR@200的提升。整体而言,KARMA在排序中实现了+0.25 CTR AUC,在预排序中实现了+1.86 HR,在召回中实现了+2.51 HR。在线部署后,KARMA推动了Item Click +0.5%的增长,证明了其在实际应用中的有效性。

🎯 应用场景

KARMA框架可应用于各种个性化推荐和搜索系统,尤其是在需要利用大型语言模型的语义知识的场景下。例如,可以应用于电商平台的商品推荐、新闻资讯的个性化推送、以及搜索引擎的查询理解和结果排序。该研究有助于提升用户体验,提高推荐和搜索的准确性和相关性,从而带来商业价值。

📄 摘要(原文)

Large Language Models (LLMs) are equipped with profound semantic knowledge, making them a natural choice for injecting semantic generalization into personalized search systems. However, in practice we find that directly fine-tuning LLMs on industrial personalized tasks (e.g. next item prediction) often yields suboptimal results. We attribute this bottleneck to a critical Knowledge--Action Gap: the inherent conflict between preserving pre-trained semantic knowledge and aligning with specific personalized actions by discriminative objectives. Empirically, action-only training objectives induce Semantic Collapse, such as attention ``sinks''. This degradation severely cripples the LLM's generalization, failing to bring improvements to personalized search systems. We propose KARMA (Knowledge--Action Regularized Multimodal Alignment), a unified framework that treats semantic reconstruction as a train-only regularizer. KARMA optimizes a next-interest embedding for retrieval (Action) while enforcing semantic decodability (Knowledge) through two complementary objectives: (i) history-conditioned semantic generation, which anchors optimization to the LLM's native next-token distribution, and (ii) embedding-conditioned semantic reconstruction, which constrains the interest embedding to remain semantically recoverable. On Taobao search system, KARMA mitigates semantic collapse (attention-sink analysis) and improves both action metrics and semantic fidelity. In ablations, semantic decodability yields up to +22.5 HR@200. With KARMA, we achieve +0.25 CTR AUC in ranking, +1.86 HR in pre-ranking and +2.51 HR in recalling. Deployed online with low inference overhead at ranking stage, KARMA drives +0.5% increase in Item Click.