Causal Representation Learning for Generalisable Recommendation
作者: Yorgos Felekis, Michael O'Riordan, Oriol Corcoll, Ciarán M. Gilligan-Lee
分类: stat.ML, cs.LG, stat.ME
发布日期: 2026-05-26
💡 一句话要点
提出基于因果表征学习的推荐方法,提升推荐系统在分布偏移下的泛化能力。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 因果表征学习 推荐系统 分布偏移 泛化能力 信息论解耦
📋 核心要点
- 推荐系统训练数据受多种因素混淆,导致训练与实际应用环境存在分布偏移,离线指标无法准确预测在线性能。
- 论文提出基于因果表征学习的解耦准则,提取数据中的因果成分,从而提升模型在分布偏移下的泛化能力。
- 在Spotify的A/B测试中,该方法在离线表现相当的情况下,显著提升了listener engagement,并在其他数据集上验证了有效性。
📝 摘要(中文)
在观测数据上训练的预测模型通常难以泛化到部署时遇到的分布,尤其是在训练数据是优化系统产物的情况下。推荐系统就是一个典型的例子:它们在受部署策略、过去用户行为和平台过滤混淆的交互日志上进行训练。因此,训练分布与服务时评分的候选分布存在显著差异,这种差距使得离线指标成为在线性能的不可靠预测指标。我们提出一种受因果表征学习(CRL)驱动的方法来解决分布偏移问题。我们提出了一个信息论解耦准则,并证明其最优值仅取决于输入的因果成分。然后,我们推导出一个易于处理的变分下界,使得该准则可以仅从有限的观测数据中进行优化。我们的方法范围比大多数CRL文献窄,因为我们的目标是在分布偏移下获得更好的泛化能力,而不是完全识别所有潜在的因果因素。这种较窄的目标使得该方法具有实用性,只需要现有的混淆日志,适用于任何标准监督模型,并且不增加推理时成本。我们的主要评估是在Spotify上对数百万用户进行的A/B测试,应用于个性化播放列表生成的生产排序器。容量匹配的CRL变体在离线表现上与基线相当,但在listener engagement方面实现了显著的在线收益。在公共KuaiRand推荐数据集和一个具有已知因果结构的合成基准上的补充证据显示了相同的模式:离线与基线持平,在分布偏移下获得收益。在所有三个设置中,添加我们的因果解耦目标可以产生更有意义的分布外泛化。
🔬 方法详解
问题定义:推荐系统面临严重的分布偏移问题,这是由于训练数据(用户交互日志)受到多种因素的影响,例如推荐策略、用户历史行为以及平台过滤机制等。这些因素导致训练数据与实际应用场景中的数据分布存在差异,使得离线评估指标无法准确反映在线性能。现有方法难以有效解决这种分布偏移带来的泛化性问题。
核心思路:论文的核心思路是利用因果表征学习(CRL)的思想,从观测数据中学习到与因果关系相关的、具有不变性的表征。通过解耦混淆因素的影响,提取出数据中真正影响用户行为的因果成分,从而提高模型在不同分布下的泛化能力。这种方法旨在学习一种对分布偏移具有鲁棒性的表征,而不是试图完全识别所有潜在的因果因素。
技术框架:该方法可以应用于任何标准的监督学习模型。其主要流程包括:1) 使用现有的混淆日志作为输入;2) 在训练过程中,引入一个基于信息论的解耦准则,鼓励模型学习到解耦的表征;3) 通过变分下界优化该准则,使其可以在有限的观测数据上进行优化。该方法不增加推理时的计算成本。
关键创新:该方法最重要的创新点在于提出了一个信息论的解耦准则,该准则的最优解仅依赖于输入的因果成分。通过优化这个准则,模型可以学习到对分布偏移具有鲁棒性的表征。与传统的因果表征学习方法相比,该方法的目标更加聚焦,旨在提升泛化能力,而不是完全识别所有因果因素,从而降低了实现的难度。
关键设计:论文提出了一个可优化的变分下界,用于近似信息论解耦准则。具体的损失函数设计和网络结构选择取决于具体的推荐模型。关键在于在训练过程中,将解耦准则作为正则项添加到原始的推荐模型损失函数中,从而引导模型学习到因果表征。
🖼️ 关键图片
📊 实验亮点
在Spotify的A/B测试中,该方法在离线表现与基线模型相当的情况下,在线listener engagement指标获得了显著提升。在KuaiRand数据集和合成数据集上的实验也表明,该方法在分布偏移下能够显著提升模型的泛化能力,同时保持或略优于基线模型的离线性能。这些实验结果验证了该方法在实际应用中的有效性。
🎯 应用场景
该研究成果可广泛应用于各种推荐系统,尤其是在数据分布容易发生变化的场景下,例如新闻推荐、电商推荐、音乐推荐等。通过提升推荐系统在分布偏移下的泛化能力,可以提高用户满意度、增加平台收益,并减少因推荐偏差带来的负面影响。该方法还可应用于其他机器学习任务,例如自然语言处理和计算机视觉,以提升模型在不同领域或数据集上的泛化能力。
📄 摘要(原文)
Predictive models trained on observational data often fail to generalise to the distributions they encounter when deployed, especially when the training data is a product of the system being optimised. Recommender systems are a canonical example: they are trained on interaction logs confounded by the deployed policy, past user behaviour, and platform filtering. As a result, the training distribution differs substantially from the candidate distribution scored at serving time, a gap that makes offline metrics unreliable predictors of online performance. We address the distribution shift problem with a method motivated by causal representation learning (CRL). We propose an information-theoretic disentanglement criterion and prove that its optimum depends only on the causal components of the input. We then derive a tractable variational lower bound that makes the criterion optimisable from finite observational data alone. The scope of our method is narrower than that of much of the CRL literature, in that we target better generalisation under distribution shift, not full identification of all latent causal factors. This narrower target is what makes the method practical, requiring only the existing confounded logs, applying to any standard supervised model, and adding no inference-time cost. Our headline evaluation is an A/B test with millions of users on Spotify, applied to a production ranker for personalised playlist generation. A capacity-matched CRL variant performed on par offline but delivered substantial online gains in listener engagement. Complementary evidence on the public KuaiRand recommendation dataset and a synthetic benchmark with known causal structure shows the same pattern: offline parity with baseline, gains under distribution shift. Across all three settings, adding our causal disentanglement objective yields meaningfully better out-of-distribution generalisation.