Unbiased Prevalence Estimation with Multicalibrated LLMs
作者: Fridolin Linder, Thomas Leeper, Daniel Haimovich, Niek Tax, Lorenzo Perini, Milan Vojnovic
分类: cs.AI, stat.ME
发布日期: 2026-04-23
💡 一句话要点
提出基于多重校准的大语言模型,解决类别流行度估计中的偏差问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多重校准 流行度估计 协变量偏移 大语言模型 无偏估计
📋 核心要点
- 现有类别流行度估计方法在协变量偏移下失效,因为它们假设设备误差率在不同人群中保持稳定。
- 论文提出使用多重校准方法,即以输入特征为条件进行校准,以实现协变量偏移下的无偏流行度估计。
- 实验表明,多重校准估计器在协变量偏移下能保持接近零的偏差,优于标准校准和量化方法。
📝 摘要(中文)
本文研究了使用不完善的测量设备(如诊断测试、分类器或大型语言模型)估计人群中类别流行度的问题,这在科学、公共卫生以及在线信任和安全领域至关重要。传统方法会校正已知的设备误差率,但假设这些误差率在不同人群中保持稳定。本文表明,这种假设在协变量偏移下不成立,并且多重校准(即强制执行以输入特征为条件的校准,而不仅仅是平均校准)足以在协变量偏移下进行无偏的流行度估计。标准校准和量化方法无法提供此保证。这项工作将近期关于公平性的理论工作与几乎所有学术学科中长期存在的测量问题联系起来。仿真实验证实,标准方法表现出随偏移幅度增长的偏差,而多重校准估计器保持接近于零的偏差。虽然讨论主要集中在LLM上,但理论结果适用于任何分类模型。两个实证应用——使用美国社区调查估计美国各州的就业流行度,以及使用LLM对四个国家的政治文本进行分类——表明多重校准在实践中显着减少了偏差,同时也强调了校准数据应涵盖目标人群可能存在差异的关键特征维度。
🔬 方法详解
问题定义:论文旨在解决使用不完美的分类器(包括LLM)估计目标人群中特定类别的真实流行度时,由于协变量偏移导致的偏差问题。现有方法通常假设分类器的误差率在不同人群中是恒定的,但实际应用中,人群特征的差异会导致误差率发生变化,从而影响流行度估计的准确性。
核心思路:论文的核心思路是利用多重校准来保证分类器在不同人群子集上的预测概率与真实概率一致。多重校准要求分类器在任何由输入特征定义的子集上都是校准的,而不仅仅是在整个数据集上。通过确保分类器在不同特征维度上都具有良好的校准性,可以有效消除协变量偏移带来的偏差。
技术框架:论文提出的方法主要包含以下几个步骤:1) 使用带有特征信息的校准数据集训练或微调分类器;2) 使用多重校准技术对分类器进行校准,确保其在不同特征子集上的预测概率与真实概率一致;3) 使用校准后的分类器对目标人群进行分类,并根据分类结果估计类别流行度。整个框架的关键在于多重校准步骤,它保证了估计结果的无偏性。
关键创新:论文最重要的技术创新在于将多重校准的概念引入到类别流行度估计问题中,并证明了多重校准是实现无偏估计的充分条件。与传统的校准方法相比,多重校准能够更好地处理协变量偏移带来的影响,从而提高流行度估计的准确性。
关键设计:论文中多重校准的具体实现方式取决于所使用的分类器和校准数据集。一种常用的方法是使用分箱(binning)技术,将特征空间划分为多个子集,并在每个子集上独立地进行校准。另一种方法是使用正则化技术,在训练过程中引入多重校准约束,以鼓励分类器学习到具有良好校准性的预测概率。损失函数的设计需要同时考虑分类准确性和校准误差,以达到最佳的平衡。
📊 实验亮点
论文通过仿真实验和两个实证应用验证了多重校准方法的有效性。仿真实验表明,在协变量偏移下,标准方法表现出明显的偏差,而多重校准估计器能够保持接近零的偏差。在实证应用中,多重校准方法在估计美国各州的就业流行度和对不同国家的政治文本进行分类时,均显著降低了偏差。
🎯 应用场景
该研究成果可广泛应用于公共卫生、社会科学、在线信任与安全等领域。例如,可以更准确地估计疾病在不同人群中的患病率,评估不同地区人群的就业情况,以及检测在线平台上的有害内容。通过消除协变量偏移带来的偏差,可以为决策者提供更可靠的数据支持,从而制定更有效的政策和措施。
📄 摘要(原文)
Estimating the prevalence of a category in a population using imperfect measurement devices (diagnostic tests, classifiers, or large language models) is fundamental to science, public health, and online trust and safety. Standard approaches correct for known device error rates but assume these rates remain stable across populations. We show this assumption fails under covariate shift and that multicalibration, which enforces calibration conditional on the input features rather than just on average, is sufficient for unbiased prevalence estimation under such shift. Standard calibration and quantification methods fail to provide this guarantee. Our work connects recent theoretical work on fairness to a longstanding measurement problem spanning nearly all academic disciplines. A simulation confirms that standard methods exhibit bias growing with shift magnitude, while a multicalibrated estimator maintains near-zero bias. While we focus the discussion mostly on LLMs, our theoretical results apply to any classification model. Two empirical applications -- estimating employment prevalence across U.S. states using the American Community Survey, and classifying political texts across four countries using an LLM -- demonstrate that multicalibration substantially reduces bias in practice, while highlighting that calibration data should cover the key feature dimensions along which target populations may differ.