From Model Choice to Model Belief: Establishing a New Measure for LLM-Based Research

📄 arXiv: 2512.23184v1 📥 PDF

作者: Hongshen Sun, Juanjuan Zhang

分类: cs.AI, econ.EM

发布日期: 2025-12-29


💡 一句话要点

提出“模型置信度”:一种更高效的LLM数据利用方法,提升LLM模拟研究的统计效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 LLM 模型置信度 概率建模 统计效率 需求估计 行为模拟

📋 核心要点

  1. 现有方法将LLM输出视为单一数据点,忽略了其内在的概率信息,导致LLM模拟研究效率低下。
  2. 论文提出“模型置信度”概念,利用LLM的token级别概率分布,更全面地捕捉模型对不同选择的置信程度。
  3. 实验表明,模型置信度在预测模型选择方面优于传统方法,并显著降低了计算成本,提升了估计精度。

📝 摘要(中文)

大型语言模型(LLMs)越来越多地被用于模拟人类行为,但常用的LLM生成数据的使用方法效率低下。将LLM的输出(“模型选择”)视为单个数据点,未能充分利用LLM概率性质中蕴含的信息。本文介绍并形式化了“模型置信度”,这是一种从LLM的token级别概率中导出的度量,它在单个生成运行中捕获模型对选择方案的置信度分布。作者证明了模型置信度与模型选择的均值是渐近等价的(一个重要的性质),但它形成了一个统计上更有效的估计器,具有更低的方差和更快的收敛速度。类似的性质也被证明适用于模型置信度和模型选择的光滑函数,这些函数经常在下游应用中使用。作者通过需求估计研究展示了模型置信度的性能,其中LLM模拟消费者对不同价格的反应。在运行次数有限的实际设置中,模型置信度比模型选择本身更好地解释和预测了ground-truth模型选择,并将达到足够准确的估计所需的计算量减少了大约20倍。研究结果支持使用模型置信度作为默认度量,以从LLM生成的数据中提取更多信息。

🔬 方法详解

问题定义:现有方法在利用LLM生成的数据时,通常只关注最终的“模型选择”,即LLM给出的一个具体答案。这种方法忽略了LLM生成答案过程中产生的token级别的概率分布信息,造成了信息浪费。尤其是在模拟人类行为的研究中,这种信息损失会降低统计效率,需要更多的采样才能得到可靠的结果。

核心思路:论文的核心思路是利用LLM的token级别概率分布,构建一个名为“模型置信度”的度量。该度量能够反映LLM对于不同选择方案的置信程度,从而更全面地利用LLM生成过程中的信息。通过将LLM的输出从单一选择扩展到概率分布,可以更准确地模拟人类行为,并提高统计效率。

技术框架:该论文主要关注理论分析和实验验证,并没有提出一个全新的技术框架。其核心在于定义和使用“模型置信度”这一概念。具体来说,对于一个给定的问题和一组可能的答案,LLM会生成每个答案的概率分布。模型置信度就是基于这个概率分布计算出来的一个度量,用于表示LLM对每个答案的置信程度。然后,作者在需求估计的场景下,将模型置信度应用于模拟消费者行为,并与传统的“模型选择”方法进行比较。

关键创新:该论文的关键创新在于提出了“模型置信度”这一概念,并证明了其在统计效率上的优越性。与传统的“模型选择”方法相比,模型置信度能够更好地利用LLM生成过程中的信息,从而提高模拟的准确性和效率。此外,论文还证明了模型置信度与模型选择的均值是渐近等价的,这为使用模型置信度提供了理论基础。

关键设计:论文的关键设计在于如何从LLM的token级别概率分布中计算出模型置信度。具体计算方法取决于具体的应用场景和LLM的输出格式。在需求估计的实验中,作者使用了softmax函数将LLM输出的logits转换为概率分布,然后基于该概率分布计算模型置信度。此外,论文还考虑了如何将模型置信度应用于下游任务,例如需求估计中的价格弹性计算。

📊 实验亮点

实验结果表明,在需求估计任务中,模型置信度比模型选择更好地解释和预测了ground-truth模型选择。在实际设置中,使用模型置信度可以将达到足够准确的估计所需的计算量减少大约20倍。这表明模型置信度是一种更高效、更准确的LLM数据利用方法。

🎯 应用场景

该研究成果可广泛应用于各种需要利用LLM模拟人类行为的领域,例如市场营销、经济学、社会科学等。通过使用模型置信度,研究人员可以更高效地利用LLM生成的数据,降低计算成本,并提高模拟的准确性。这有助于更好地理解人类行为,并为决策提供更可靠的依据。

📄 摘要(原文)

Large language models (LLMs) are increasingly used to simulate human behavior, but common practices to use LLM-generated data are inefficient. Treating an LLM's output ("model choice") as a single data point underutilizes the information inherent to the probabilistic nature of LLMs. This paper introduces and formalizes "model belief," a measure derived from an LLM's token-level probabilities that captures the model's belief distribution over choice alternatives in a single generation run. The authors prove that model belief is asymptotically equivalent to the mean of model choices (a non-trivial property) but forms a more statistically efficient estimator, with lower variance and a faster convergence rate. Analogous properties are shown to hold for smooth functions of model belief and model choice often used in downstream applications. The authors demonstrate the performance of model belief through a demand estimation study, where an LLM simulates consumer responses to different prices. In practical settings with limited numbers of runs, model belief explains and predicts ground-truth model choice better than model choice itself, and reduces the computation needed to reach sufficiently accurate estimates by roughly a factor of 20. The findings support using model belief as the default measure to extract more information from LLM-generated data.