Three-in-One World Model: Energy-Based Consistency, Prediction, and Counterfactual Inference for Marketing Intervention
作者: Junichiro Niimi
分类: cs.AI, cs.LG
发布日期: 2026-05-08
💡 一句话要点
提出“三合一”世界模型,通过深度玻尔兹曼机实现营销干预中的一致性评估、预测与反事实推理。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 世界模型 深度玻尔兹曼机 因果推断 反事实推理 营销分析 异质性处理效应 基于能量的模型
📋 核心要点
- 现有模型难以统一建模消费者异质性、动态内部状态与营销干预之间的复杂交互关系。
- 提出基于深度玻尔兹曼机(DBM)的“三合一”架构,通过冻结信念表示与任务适配器实现预测、一致性评估与反事实推理的统一。
- 实验证明该方法在处理混杂因素的营销干预场景下,恢复异质性处理效应的能力显著优于各类主流因果推断元学习器。
📝 摘要(中文)
营销决策反映了潜在消费者异质性、随时间变化的内部状态以及显性干预之间的复杂交互,而现有的预测型或语言模型难以统一捕捉这一结构。本文提出了一种“三合一”世界模型架构,利用深度玻尔兹曼机(DBM)从人口统计学数据、时间序列及滞后行为中学习冻结的信念表示,并在其上附加轻量级任务适配器。该框架支持三项任务:通过DBM自由能进行基于能量的一致性评估;通过适配器进行结果预测;以及通过固定信念并仅改变适配器输入动作来进行反事实推理。在受控模拟实验中,该模型在预测AUC上与强基线MLP持平,但在恢复异质性处理效应(HTE)方面显著优于S/T/X/DR-learner及因果森林模型,特别是在存在混杂因素的定价与促销干预场景下表现优异。实验表明,DBM信念能够解耦潜在特征,为营销干预提供了一个集成的世界模型基底。
🔬 方法详解
问题定义:营销决策环境复杂,现有预测模型缺乏对消费者潜在异质性与动态状态的结构化建模,导致在反事实推理(如“如果改变促销策略,结果会如何”)时难以保持逻辑一致性与因果准确性。
核心思路:引入基于能量的模型(EBM)思想,利用深度玻尔兹曼机(DBM)作为“世界模型”的基底,将消费者特征映射为稳定的信念表示。通过将信念冻结并解耦,实现对不同营销任务的统一支持。
技术框架:整体架构分为两层:底层是预训练的DBM,负责从人口统计学、时间序列及历史行为中提取潜在信念表示;顶层是轻量级任务适配器,分别负责结果预测、一致性评估(通过自由能计算)及反事实干预模拟。
关键创新:将生成式建模(DBM)与因果推断相结合,利用自由能(Free Energy)作为一致性度量,能够系统性地惩罚不符合逻辑的反事实轨迹,从而确保模型在进行反事实查询时具备物理或逻辑上的合理性。
关键设计:模型通过DBM的自由能函数对反事实路径进行约束,当反事实轨迹缺乏先验促销暴露时,自由能会产生惩罚项,该惩罚项的大小与消费者的潜在偏好方向一致,有效提升了对异质性处理效应(HTE)的捕捉能力。
🖼️ 关键图片
📊 实验亮点
在受控模拟实验中,该模型在预测AUC上与MLP基线相当,但在恢复异质性处理效应(HTE)方面大幅超越了S-learner、T-learner、X-learner、DR-learner及因果森林(Causal Forest)。特别是在存在混杂因素的定价与促销干预场景中,该模型展现了极强的鲁棒性与因果推断准确性。
🎯 应用场景
该研究适用于精准营销、动态定价与促销策略优化。通过构建消费者世界模型,企业能在不进行大规模A/B测试的情况下,模拟不同营销干预下的消费者行为,从而在复杂的市场混杂因素中识别出真实的因果效应,提升营销投入产出比(ROI)。
📄 摘要(原文)
Marketing decisions reflect the interaction of latent consumer heterogeneity, time-varying internal states, and explicit interventions, a structure that current prediction- and language-oriented models do not capture in a unified manner. We propose a Three-in-One world-model architecture in which a Deep Boltzmann Machine (DBM) learns a frozen belief representation from demographics, time, and lagged actions and outcomes, with lightweight task-specific adapters attached on top. The same belief supports three tasks within a single framework: (i) energy-based consistency evaluation through the DBM's free energy, (ii) outcome prediction through adapters, and (iii) counterfactual inference by holding the belief fixed and varying only the action input given to the adapter. Using a controlled simulation in which the latent price sensitivity, promotion responsiveness, and base preference of each consumer are known, we show that the adapters match a strong MLP baseline on visit- and purchase-AUC while recovering heterogeneous treatment effects substantially better than S-, T-, X-, and DR-learner meta-learners and a Causal Forest baseline built on the same raw features, with the largest gap on a confounded price-promotion intervention. Complementing this, free-energy clamps systematically penalize counterfactual purchase trajectories that lack prior promotional exposure, and the penalty itself depends on the latent base preference in the expected direction. These results indicate that DBM beliefs disentangle latent traits in a form that survives counterfactual queries, providing an integrated world-model substrate for marketing intervention.