Assessing and Mitigating Miscalibration in LLM-Based Social Science Measurement
作者: Jinyuan Wang, Ningyuan Deng, Yi Yang
分类: cs.AI
发布日期: 2026-05-12
💡 一句话要点
提出软标签蒸馏校准方法,提升LLM在社会科学测量中的置信度可靠性
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 置信度校准 软标签蒸馏 社会科学测量 模型校准
📋 核心要点
- 现有方法在社会科学测量中依赖LLM,但LLM的置信度校准不足,影响测量结果的可靠性。
- 提出一种基于软标签蒸馏的校准方法,利用LLM的输出和置信度信息训练更小的判别模型。
- 实验表明,该方法显著降低了校准误差(ECE)和Brier分数,提升了LLM在社会科学测量中的有效性。
📝 摘要(中文)
大型语言模型(LLM)越来越多地被社会科学领域用作可扩展的测量工具,将非结构化文本转换为可用于标准经验设计的变量。测量有效性不仅要求高平均准确率,还需要良好校准的置信度,以真实反映每次测量正确的经验概率。本文研究了基于LLM的社会科学测量中的模型失准问题。我们首先对联邦公开市场委员会(FOMC)进行案例研究,表明当LLM置信度失准时,基于置信度的过滤会改变下游回归估计。然后,我们审核了14个社会科学结构上的校准情况,涵盖了包括GPT-5-mini、DeepSeek-V3.2在内的专有模型和开源模型。在各种任务和模型系列中,报告的置信度与基于容差的正确性不一致。作为一种简单的缓解措施,我们提出了一种软标签蒸馏流程,用于使用LLM校准Bert。该方法将LLM分数及其口头置信度转换为软目标分布,然后针对这些目标在编码器模型上训练较小的判别分类器。平均而言,该方法将ECE降低了43.2%,将Brier分数降低了34.0%。这些结果表明,基于LLM的社会科学流程应将校准视为测量有效性的一部分,而不是作为可选的后处理问题。
🔬 方法详解
问题定义:论文旨在解决LLM在社会科学测量应用中,置信度与实际准确率不匹配的问题,即模型校准不良。现有方法直接使用LLM的输出,忽略了其置信度可能存在偏差,导致下游分析结果不可靠。
核心思路:论文的核心思路是利用LLM的知识和置信度信息,通过软标签蒸馏的方式,训练一个校准良好的小型判别模型。这样既能利用LLM的强大能力,又能避免其置信度偏差带来的问题。
技术框架:整体框架包含两个主要阶段:1) 使用LLM对社会科学文本进行测量,并获取其输出和置信度;2) 将LLM的输出和置信度转化为软标签,训练一个小型判别模型(如Bert)。该判别模型学习LLM的知识,并校准其置信度。
关键创新:关键创新在于将LLM的置信度信息融入到训练过程中,通过软标签蒸馏的方式,使小型判别模型能够学习到校准良好的置信度。这与传统的硬标签训练方式不同,能够更好地利用LLM的知识。
关键设计:论文的关键设计包括:1) 如何将LLM的置信度转化为软标签分布;2) 如何选择合适的损失函数来训练判别模型,例如交叉熵损失函数;3) 如何选择合适的判别模型结构,例如Bert等预训练语言模型。
🖼️ 关键图片
📊 实验亮点
实验结果表明,提出的软标签蒸馏方法在多个社会科学数据集上显著降低了校准误差。具体而言,平均而言,该方法将ECE(Expected Calibration Error)降低了43.2%,将Brier分数降低了34.0%。这些结果表明,该方法能够有效地校准LLM的置信度,提高其在社会科学测量中的可靠性。
🎯 应用场景
该研究成果可广泛应用于社会科学领域,例如政治学、经济学、社会学等,用于提高基于文本数据的测量和分析的准确性和可靠性。通过校准LLM的置信度,可以更准确地评估社会科学现象,为政策制定和学术研究提供更可靠的依据。此外,该方法也可以推广到其他领域,例如金融风险评估、舆情分析等。
📄 摘要(原文)
Large language models (LLMs) are increasingly used in social science as scalable measurement tools for converting unstructured text into variables that can enter standard empirical designs. Measurement validity demands more than high average accuracy, which requires well calibrated confidence that faithfully reflects the empirical probability of each measurement being correct. This paper studies the model miscalibration in LLM-based social science measurement. We begin with a case study on FOMC and show that confidence based filtering can change downstream regression estimates when LLM confidence is miscalibrated. We then audit calibration across 14 social science constructs covering both proprietary models, including GPT-5-mini, DeepSeek-V3.2, and open source models. Across tasks and model families, reported confidence is poorly aligned with tolerance-based correctness. As a simple mitigation, we propose a soft label distillation pipeline for calibrating Bert with LLM. The method converts an LLM score and its verbalized confidence into a soft target distribution, then trains a smaller discriminative classifier on encoder models for these targets. Averaged across datasets, this approach reduces ECE by 43.2\% and Brier by 34.0\%. These results suggest that LLM-based social science pipelines should treat calibration as part of measurement validity, rather than as an optional post-processing concern.