From Model Choice to Model Belief: Establishing a New Measure for LLM-Based Research

📄 arXiv: 2512.23184v1 📥 PDF

作者: Hongshen Sun, Juanjuan Zhang

分类: cs.AI, econ.EM

发布日期: 2025-12-29


💡 一句话要点

提出“模型置信度”以更高效利用LLM的概率信息,提升模拟研究效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 模型置信度 模型选择 概率分布 需求估计

📋 核心要点

  1. 现有方法将LLM输出视为单一数据点,忽略了其概率分布信息,导致效率低下。
  2. 论文提出“模型置信度”,利用LLM的token级别概率来捕捉模型对不同选择的置信度分布。
  3. 实验表明,模型置信度在需求估计中表现更优,能显著减少计算量并提高预测精度。

📝 摘要(中文)

大型语言模型(LLM)越来越多地被用于模拟人类行为,但常用的LLM生成数据的使用方法效率低下。将LLM的输出(“模型选择”)视为单个数据点,未能充分利用LLM固有的概率性质所包含的信息。本文介绍并形式化了“模型置信度”,这是一种从LLM的token级别概率导出的度量,它在单个生成运行中捕获模型对选择方案的置信度分布。作者证明了模型置信度渐近等价于模型选择的均值(一个非平凡的性质),但形成了一个统计上更有效的估计器,具有更低的方差和更快的收敛速度。类似的性质被证明适用于模型置信度和模型选择的平滑函数,这些函数经常在下游应用中使用。作者通过需求估计研究展示了模型置信度的性能,其中LLM模拟消费者对不同价格的反应。在运行次数有限的实际环境中,模型置信度比模型选择本身更好地解释和预测真实模型选择,并将达到足够准确估计所需的计算量减少了大约20倍。研究结果支持使用模型置信度作为默认度量,以从LLM生成的数据中提取更多信息。

🔬 方法详解

问题定义:现有研究在使用LLM模拟人类行为时,通常将LLM的输出(即“模型选择”)视为一个独立的、离散的数据点。这种方法忽略了LLM生成文本时内在的概率分布信息,造成了信息浪费,导致需要大量的采样才能获得可靠的统计结果。因此,如何更有效地利用LLM的概率信息,提高模拟研究的效率,是本文要解决的核心问题。

核心思路:本文的核心思路是引入“模型置信度”这一概念,它基于LLM在生成每个token时的概率分布,构建一个关于不同选择方案的置信度分布。模型置信度能够更全面地反映LLM对不同选项的偏好程度,而不仅仅是最终选择的结果。通过使用模型置信度,可以更有效地利用LLM的概率信息,从而减少所需的采样次数,提高统计估计的效率。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 定义模型选择和模型置信度;2) 从理论上证明模型置信度与模型选择均值的渐近等价性,并证明模型置信度具有更低的方差和更快的收敛速度;3) 通过需求估计的实验,验证模型置信度在实际应用中的性能。整个框架旨在说明模型置信度可以作为一种更有效的替代方案,用于从LLM生成的数据中提取信息。

关键创新:该论文的关键创新在于提出了“模型置信度”这一概念,并从理论和实验上证明了其优越性。与传统的“模型选择”方法相比,“模型置信度”能够更充分地利用LLM的概率信息,从而提高统计估计的效率。此外,论文还证明了模型置信度与模型选择均值的渐近等价性,这为使用模型置信度提供了理论基础。

关键设计:模型置信度的计算基于LLM在生成每个token时的概率分布。具体来说,对于每个选择方案,模型置信度是该方案下所有可能token序列的概率之和。论文中并没有涉及特定的损失函数或网络结构,而是侧重于对LLM输出的概率信息进行更有效的利用。在实验中,作者使用了标准的需求估计模型,并比较了使用模型选择和模型置信度时的性能。

📊 实验亮点

实验结果表明,在需求估计任务中,模型置信度比模型选择更好地解释和预测真实模型选择。在运行次数有限的实际环境中,使用模型置信度可以将达到足够准确估计所需的计算量减少大约20倍。这表明模型置信度在提高LLM模拟效率方面具有显著优势。

🎯 应用场景

该研究成果可广泛应用于各种需要使用LLM进行模拟的场景,例如市场营销、经济学、社会科学等。通过使用模型置信度,研究人员可以更高效地利用LLM生成的数据,减少计算成本,并提高研究结果的准确性。未来,该方法有望成为LLM驱动的模拟研究的标准做法。

📄 摘要(原文)

Large language models (LLMs) are increasingly used to simulate human behavior, but common practices to use LLM-generated data are inefficient. Treating an LLM's output ("model choice") as a single data point underutilizes the information inherent to the probabilistic nature of LLMs. This paper introduces and formalizes "model belief," a measure derived from an LLM's token-level probabilities that captures the model's belief distribution over choice alternatives in a single generation run. The authors prove that model belief is asymptotically equivalent to the mean of model choices (a non-trivial property) but forms a more statistically efficient estimator, with lower variance and a faster convergence rate. Analogous properties are shown to hold for smooth functions of model belief and model choice often used in downstream applications. The authors demonstrate the performance of model belief through a demand estimation study, where an LLM simulates consumer responses to different prices. In practical settings with limited numbers of runs, model belief explains and predicts ground-truth model choice better than model choice itself, and reduces the computation needed to reach sufficiently accurate estimates by roughly a factor of 20. The findings support using model belief as the default measure to extract more information from LLM-generated data.