In-Context Learning for the Imputation of Public Opinion Data with Large Language Models
作者: Tobias Holtdirk, Georg Ahnert, Joseph W Sakshaug, Anna-Carolina Haensch
分类: cs.CL, stat.ME
发布日期: 2026-06-08
💡 一句话要点
提出基于上下文学习的缺失公共意见数据填补方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 上下文学习 缺失数据填补 大型语言模型 调查数据 统计方法
📋 核心要点
- 现有方法在处理部分缺失数据时效果有限,尤其是在非随机缺失情况下,填补效果不佳。
- 本文提出利用上下文学习(ICL)来填补缺失的调查数据,旨在通过提供上下文示例来提高填补的准确性。
- 实验结果表明,ICL方法在所有缺失机制下均显著降低了绝对误差,尤其在非随机缺失(MNAR)情况下,表现出最大的提升。
📝 摘要(中文)
大型语言模型在模拟个体调查响应方面得到了广泛评估。然而,完全未观察的响应很少见,主要问题是部分缺失。填补旨在通过填充缺失值来恢复调查数据集的整体结构。本文提出通过上下文学习(ICL)填补缺失的调查数据,并系统评估不同缺失机制下的ICL设计选择。与传统的统计填补方法相比,ICL方法在所有缺失机制下均能显著降低绝对误差,尤其在非随机缺失情况下表现最佳。我们发布了一个Python包,提供类似sklearn的API,以便于使用本地和专有的LLM进行部署。
🔬 方法详解
问题定义:本文解决的是调查数据中部分缺失值的填补问题。现有的统计填补方法在面对非随机缺失(MNAR)时常常效果不佳,导致填补结果的准确性不足。
核心思路:论文提出通过上下文学习(ICL)来填补缺失数据,利用大型语言模型的能力,通过提供上下文示例来引导模型生成更准确的填补结果。这样的设计旨在充分利用模型的语言理解能力,提高填补的准确性。
技术框架:整体框架包括数据预处理、上下文示例生成、模型训练与评估等主要模块。首先,针对不同缺失机制(MCAR、MAR、MNAR)进行数据分类,然后生成相应的上下文示例,最后利用大型语言模型进行填补并评估效果。
关键创新:最重要的技术创新点在于将上下文学习应用于缺失数据填补,显著提高了填补的准确性,尤其是在非随机缺失情况下,与传统方法相比,填补效果有质的飞跃。
关键设计:在设计中,选择了gpt-oss-120b模型,并使用100个上下文示例进行填补。通过精心设计的实验,评估了不同缺失机制下的填补效果,确保了模型的泛化能力。实验结果显示,ICL方法的置信区间比传统方法窄2到5倍。
🖼️ 关键图片
📊 实验亮点
实验结果显示,ICL方法在所有缺失机制下均显著降低绝对误差,尤其在非随机缺失(MNAR)情况下,表现出最大的提升。最佳配置(gpt-oss-120b与100个上下文示例)实现了接近95%的名义聚合覆盖率,置信区间比传统方法MICE PMM窄2到5倍。
🎯 应用场景
该研究的潜在应用领域包括社会科学、市场调查和公共政策分析等领域,能够有效填补调查数据中的缺失值,提高数据的完整性和分析的准确性。未来,该方法有望在更多领域推广应用,促进数据驱动决策的实施。
📄 摘要(原文)
Large language models have been widely evaluated as simulators of individual survey responses. In practice, however, fully unobserved responses are rare; the dominant problem is partial non-response. Imputation aims to restore the overall structure of a survey dataset by filling in these missing values. It has its own well-defined evaluation criteria and differs fundamentally from prediction. We propose to impute missing survey data through in-context learning (ICL). We systematically evaluate ICL design choices across different missingness mechanisms (MCAR, MAR, MNAR) on 150 opinion variables spanning 15 waves of the American Trends Panel. Compared to well-established statistical methods for data imputation like MICE PMM, our ICL approach consistently reduces absolute error across all missingness mechanisms, with the largest gains under non-random missingness (MNAR). Notably, the best-performing specification (gpt-oss-120b with 100 in-context examples) achieves near-nominal aggregate coverage (approaching the 95% level) with confidence intervals two to five times narrower than MICE PMM. We publish a Python package with an sklearn-like API to enable easy deployment of our method using local and proprietary LLMs.