GenZ: Foundational models as latent variable generators within traditional statistical models

📄 arXiv: 2512.24834v1 📥 PDF

作者: Marko Jojic, Nebojsa Jojic

分类: cs.AI

发布日期: 2025-12-31


💡 一句话要点

GenZ:利用统计模型中的潜在变量生成器作为基础模型,弥合领域知识与数据集特定模式。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 混合模型 基础模型 统计建模 语义特征 广义EM算法

📋 核心要点

  1. 大型语言模型缺乏捕捉数据集特定模式的能力,限制了其在特定预测任务中的表现。
  2. GenZ通过迭代对比统计建模误差识别的项目组,发现可解释的语义特征描述,弥合领域知识与数据集特定模式。
  3. 实验表明,GenZ在房价预测和电影推荐任务中显著优于现有方法,并能发现数据集特有的模式。

📝 摘要(中文)

本文提出GenZ,一种混合模型,通过可解释的语义特征桥接基础模型和统计建模。大型语言模型虽然拥有广泛的领域知识,但常常无法捕捉对预测任务至关重要的数据集特定模式。我们的方法通过迭代过程发现语义特征描述来解决这个问题,该过程对比通过统计建模误差识别的项目组,而不是仅仅依赖于基础模型的领域理解。我们将其公式化为广义EM算法,该算法联合优化语义特征描述符和统计模型参数。该方法提示一个冻结的基础模型根据发现的特征对项目进行分类,将这些判断视为潜在二元特征的噪声观测,这些特征通过学习的统计关系预测实值目标。我们在两个领域展示了该方法:房价预测(享乐回归)和电影推荐的冷启动协同过滤。在房价方面,我们的模型使用从多模态列表数据中发现的语义特征实现了12%的中位数相对误差,大大优于依赖于LLM通用领域知识的GPT-5基线(38%误差)。对于Netflix电影嵌入,我们的模型仅从语义描述预测协同过滤表示,余弦相似度为0.59——匹配了通过传统协同过滤需要大约4000个用户评分才能达到的性能。发现的特征揭示了数据集特定的模式(例如,预测当地房地产市场的建筑细节,预测用户偏好的特许经营会员资格),这些模式与模型单独的领域知识不同。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在特定数据集上的预测能力不足的问题。尽管LLM拥有广泛的领域知识,但它们通常难以捕捉数据集特有的模式,导致预测精度下降。现有的方法要么过度依赖LLM的通用知识,要么需要大量特定数据集的标注数据进行微调,成本较高。

核心思路:GenZ的核心思路是结合LLM的领域知识和统计建模的优势,通过迭代发现可解释的语义特征,从而更好地捕捉数据集的特定模式。该方法不直接依赖LLM进行预测,而是利用LLM作为一种“特征生成器”,生成与数据集相关的语义特征,然后使用统计模型基于这些特征进行预测。

技术框架:GenZ的整体框架是一个广义的EM算法。它包含以下主要阶段:1) 误差分析:使用统计模型(如线性回归)对数据进行初步建模,并识别预测误差较大的样本组。2) 特征发现:提示LLM对比这些误差样本组,生成描述它们之间差异的语义特征。3) 特征分类:使用LLM对所有样本进行分类,判断它们是否具有这些语义特征。4) 模型优化:将LLM的分类结果作为潜在二元特征的噪声观测,使用统计模型(如线性回归)学习这些特征与目标变量之间的关系,并更新模型参数。这个过程迭代进行,直到模型收敛。

关键创新:GenZ的关键创新在于它将LLM视为一种“潜在变量生成器”,而不是直接的预测器。通过迭代对比误差样本组,GenZ能够发现数据集特有的语义特征,这些特征是LLM单独无法获得的。此外,GenZ使用广义EM算法联合优化语义特征描述符和统计模型参数,使得特征发现和模型学习能够相互促进。

关键设计:GenZ的关键设计包括:1) 使用冻结的LLM,避免微调带来的过拟合风险。2) 使用对比学习的方式提示LLM,使其能够发现误差样本组之间的细微差异。3) 将LLM的分类结果视为潜在二元特征的噪声观测,使用统计模型进行建模,从而降低了LLM的错误分类对最终预测的影响。4) 使用广义EM算法进行迭代优化,确保特征发现和模型学习能够协同进行。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GenZ在房价预测任务中,使用从多模态列表数据中发现的语义特征实现了12%的中位数相对误差,显著优于GPT-5基线(38%误差)。在Netflix电影嵌入任务中,GenZ仅从语义描述预测协同过滤表示,余弦相似度为0.59,匹配了传统协同过滤需要大约4000个用户评分才能达到的性能。这些结果表明,GenZ能够有效地利用LLM的领域知识和数据集的特定模式,从而提高预测精度。

🎯 应用场景

GenZ具有广泛的应用前景,可以应用于各种需要结合领域知识和数据集特定模式的预测任务。例如,在金融领域,可以用于预测股票价格或信用风险;在医疗领域,可以用于诊断疾病或预测患者预后;在推荐系统领域,可以用于冷启动推荐或个性化推荐。GenZ的实际价值在于它可以提高预测精度,并发现数据集特有的模式,从而为决策提供更可靠的依据。未来,GenZ可以与其他技术(如深度学习、强化学习)相结合,进一步提高其性能和适用性。

📄 摘要(原文)

We present GenZ, a hybrid model that bridges foundational models and statistical modeling through interpretable semantic features. While large language models possess broad domain knowledge, they often fail to capture dataset-specific patterns critical for prediction tasks. Our approach addresses this by discovering semantic feature descriptions through an iterative process that contrasts groups of items identified via statistical modeling errors, rather than relying solely on the foundational model's domain understanding. We formulate this as a generalized EM algorithm that jointly optimizes semantic feature descriptors and statistical model parameters. The method prompts a frozen foundational model to classify items based on discovered features, treating these judgments as noisy observations of latent binary features that predict real-valued targets through learned statistical relationships. We demonstrate the approach on two domains: house price prediction (hedonic regression) and cold-start collaborative filtering for movie recommendations. On house prices, our model achieves 12\% median relative error using discovered semantic features from multimodal listing data, substantially outperforming a GPT-5 baseline (38\% error) that relies on the LLM's general domain knowledge. For Netflix movie embeddings, our model predicts collaborative filtering representations with 0.59 cosine similarity purely from semantic descriptions -- matching the performance that would require approximately 4000 user ratings through traditional collaborative filtering. The discovered features reveal dataset-specific patterns (e.g., architectural details predicting local housing markets, franchise membership predicting user preferences) that diverge from the model's domain knowledge alone.