Adaptive Budget Allocation in LLM-Augmented Surveys
作者: Zikun Ye, Jiameng Lyu, Rui Tao
分类: cs.LG, stat.ML
发布日期: 2026-04-14
💡 一句话要点
提出自适应预算分配算法,优化LLM增强型调查中人工标注资源的利用率。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 自适应预算分配 主动学习 调查研究 人工标注 LLM增强 资源优化
📋 核心要点
- 现有LLM增强型调查中,LLM的可靠性未知且因问题而异,需要耗费大量人工标注资源进行验证和纠正。
- 提出一种自适应预算分配算法,通过人工标注同时学习LLM在不同问题上的可靠性,并将更多预算分配给LLM最不可靠的问题。
- 在真实调查数据上,该算法相比均匀分配策略,能显著减少人工标注资源的浪费,并达到与传统均匀抽样相同的估计质量。
📝 摘要(中文)
大型语言模型(LLM)能够以低成本生成调查回复,但其可靠性因问题而异,且在数据收集前未知。在调查中部署LLM仍然需要耗费大量成本的人工回复来进行验证和纠正。如何在有限的人工标注预算下,实时地在不同问题之间分配资源?我们提出了一种自适应分配算法,该算法在收集人工回复的同时,学习LLM最难回答的问题。每个人工标签都发挥双重作用:它改进了对该问题的估计,并揭示了LLM预测人工回复的准确程度。该算法将更多预算分配给LLM最不可靠的问题,而无需任何关于问题级别LLM准确性的先验知识。我们证明,相对于最佳分配,分配差距随着预算的增长而消失。我们在合成数据和一个包含68个问题和2000多名受访者的真实调查数据集上验证了该方法。在真实调查数据上,在问题之间均匀分配人工标签的标准做法相对于最优分配浪费了10-12%的预算;我们的算法将这种浪费减少到2-6%,并且随着问题在LLM预测质量上的异质性增加,优势也随之增加。该算法以少于传统均匀抽样的人工样本实现了相同的估计质量,无需试点研究,并具有在真实调查数据上验证的形式性能保证。更广泛地说,该框架适用于任何需要将稀缺的人工监督分配到LLM可靠性未知的任务中。
🔬 方法详解
问题定义:论文旨在解决LLM增强型调查中,如何在有限的人工标注预算下,最大化利用LLM的生成能力,同时保证调查结果的准确性。现有方法,如均匀分配标注资源,无法有效应对LLM在不同问题上表现差异大的情况,造成资源浪费。
核心思路:核心思想是自适应地分配人工标注预算。算法在收集人工回复的同时,评估LLM在每个问题上的预测准确性,并将更多预算分配给LLM预测较差的问题。通过这种方式,算法能够动态地调整资源分配,从而更有效地利用有限的人工标注预算。
技术框架:该算法的核心是一个迭代过程,每次迭代选择一个问题进行人工标注。选择问题的依据是当前对该问题LLM预测准确性的估计。具体来说,算法会选择LLM预测准确性估计方差最大的问题,因为这意味着对该问题的LLM性能最不确定,因此标注该问题的信息增益最大。人工标注后,算法会更新对该问题LLM预测准确性的估计,并重复该过程。
关键创新:关键创新在于将人工标注视为一种主动学习过程,每次标注不仅用于改进对特定问题的估计,还用于学习LLM在该问题上的可靠性。这种双重作用使得算法能够有效地利用有限的标注预算,从而在保证调查结果准确性的同时,减少人工标注的需求。与传统方法相比,该算法不需要任何关于LLM性能的先验知识,并且能够自适应地应对不同问题之间的LLM性能差异。
关键设计:算法的关键在于如何估计LLM在每个问题上的预测准确性,以及如何利用这些估计来指导预算分配。论文采用了一种基于贝叶斯模型的估计方法,该方法能够量化估计的不确定性。预算分配策略则基于信息增益最大化原则,即选择标注能够最大程度减少对LLM性能不确定性的问题。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在真实调查数据上,均匀分配人工标签的标准做法相对于最优分配浪费了10-12%的预算,而该算法将这种浪费减少到2-6%。随着问题在LLM预测质量上的异质性增加,该算法的优势更加明显。该算法在人工样本数量较少的情况下,实现了与传统均匀抽样相同的估计质量,且无需进行试点研究。
🎯 应用场景
该研究成果可广泛应用于各种需要利用LLM生成内容,同时又需要人工监督和验证的场景,例如:自动内容生成、机器翻译、文本摘要等。通过自适应地分配人工审核资源,可以提高LLM生成内容的质量,降低人工成本,并加速LLM在实际应用中的部署。该方法尤其适用于LLM在不同任务或问题上表现差异较大的情况。
📄 摘要(原文)
Large language models (LLMs) can generate survey responses at low cost, but their reliability varies substantially across questions and is unknown before data collection. Deploying LLMs in surveys still requires costly human responses for verification and correction. How should a limited human-labeling budget be allocated across questions in real time? We propose an adaptive allocation algorithm that learns which questions are hardest for the LLM while simultaneously collecting human responses. Each human label serves a dual role: it improves the estimate for that question and reveals how well the LLM predicts human responses on it. The algorithm directs more budget to questions where the LLM is least reliable, without requiring any prior knowledge of question-level LLM accuracy. We prove that the allocation gap relative to the best possible allocation vanishes as the budget grows, and validate the approach on both synthetic data and a real survey dataset with 68 questions and over 2000 respondents. On real survey data, the standard practice of allocating human labels uniformly across questions wastes 10--12% of the budget relative to the optimal; our algorithm reduces this waste to 2--6%, and the advantage grows as questions become more heterogeneous in LLM prediction quality. The algorithm achieves the same estimation quality as traditional uniform sampling with fewer human samples, requires no pilot study, and is backed by formal performance guarantees validated on real survey data. More broadly, the framework applies whenever scarce human oversight must be allocated across tasks where LLM reliability is unknown.