Cost-aware LLM-based Online Dataset Annotation
作者: Eray Can Elumar, Cem Tekin, Osman Yagan
分类: cs.LG, cs.CL, cs.IT
发布日期: 2025-05-21 (更新: 2025-12-15)
期刊: In The Thirty-ninth Annual Conference on Neural Information Processing Systems, 2025. URL https://openreview.net/forum?id=3AdTRYA2uJ
💡 一句话要点
提出CaMVo:一种成本感知的LLM在线数据集标注框架,显著降低标注成本。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 数据集标注 成本感知 在线学习 多数投票
📋 核心要点
- 现有方法依赖多个LLM的多数投票提高标注可靠性,但重复查询导致计算成本高昂。
- CaMVo通过LinUCB选择LLM子集,并用贝叶斯估计器评估置信度,在准确率和成本间平衡。
- 实验表明,CaMVo在MMLU和IMDB数据集上,以更低成本实现了与多数投票相当甚至更高的准确率。
📝 摘要(中文)
本文提出了一种新颖的在线框架,名为成本感知多数投票(CaMVo),用于高效且准确的基于LLM的数据集标注。CaMVo基于上下文嵌入自适应地为每个数据实例选择LLM子集,在置信度和成本之间取得平衡,无需预训练或真实标签。CaMVo利用基于LinUCB的选择机制和基于贝叶斯的置信度评分估计器,估计每个LLM标注准确率的下界,并通过加权多数投票聚合响应。在MMLU和IMDB电影评论数据集上的实验评估表明,CaMVo在实现与完全多数投票相当或更高的准确率的同时,显著降低了标注成本。这使得CaMVo成为动态标注环境中经济高效标注的实用且稳健的解决方案。
🔬 方法详解
问题定义:论文旨在解决使用大型语言模型(LLM)进行数据集标注时,为了提高标注质量而采用多数投票策略所带来的高昂计算成本问题。现有方法简单地对多个LLM的输出进行多数投票,忽略了不同LLM在不同数据实例上的置信度和成本差异,导致资源浪费。
核心思路:论文的核心思路是根据数据实例的上下文信息,自适应地选择一个LLM子集进行标注,而不是每次都查询所有LLM。通过平衡LLM的置信度和成本,在保证标注准确率的前提下,尽可能降低标注成本。
技术框架:CaMVo框架主要包含以下几个模块:1) 上下文嵌入模块:将数据实例转换为上下文嵌入向量。2) LLM选择模块:基于LinUCB算法,根据上下文嵌入向量和历史表现,选择一个LLM子集。3) 标注模块:使用选定的LLM子集对数据实例进行标注。4) 置信度估计模块:使用贝叶斯估计器估计每个LLM在当前数据实例上的置信度。5) 聚合模块:使用加权多数投票,根据LLM的置信度对标注结果进行聚合。
关键创新:CaMVo的关键创新在于:1) 提出了一种成本感知的LLM选择机制,能够根据数据实例的上下文信息和LLM的历史表现,自适应地选择LLM子集。2) 使用贝叶斯估计器对LLM的置信度进行估计,从而能够更准确地评估LLM的标注质量。3) 将LinUCB算法应用于LLM选择,能够在探索和利用之间取得平衡,从而不断提高标注效率。
关键设计:LinUCB算法中的置信度上界参数α需要根据具体数据集进行调整,以平衡探索和利用。贝叶斯估计器使用Beta分布作为先验分布,其参数也需要根据LLM的先验知识进行设置。加权多数投票中的权重由贝叶斯估计器输出的置信度决定。没有明确提及损失函数或网络结构,因为该方法主要关注LLM的选择和置信度估计,而不是训练新的模型。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CaMVo在MMLU和IMDB数据集上,能够以显著低于完全多数投票的成本,实现与之相当甚至更高的准确率。例如,在某些实验设置下,CaMVo能够将标注成本降低50%以上,同时保持或略微提高标注准确率。这些结果验证了CaMVo在成本效益方面的优势。
🎯 应用场景
CaMVo可应用于各种需要大规模数据标注的场景,例如自然语言处理、计算机视觉和语音识别。它能够显著降低标注成本,提高标注效率,尤其适用于资源受限的环境。未来,CaMVo可以扩展到支持更复杂的标注任务,例如多标签分类和序列标注,并可以与其他主动学习方法相结合,进一步提高标注效率。
📄 摘要(原文)
Recent advances in large language models (LLMs) have enabled automated dataset labeling with minimal human supervision. While majority voting across multiple LLMs can improve label reliability by mitigating individual model biases, it incurs high computational costs due to repeated querying. In this work, we propose a novel online framework, Cost-aware Majority Voting (CaMVo), for efficient and accurate LLM-based dataset annotation. CaMVo adaptively selects a subset of LLMs for each data instance based on contextual embeddings, balancing confidence and cost without requiring pre-training or ground-truth labels. Leveraging a LinUCB-based selection mechanism and a Bayesian estimator over confidence scores, CaMVo estimates a lower bound on labeling accuracy for each LLM and aggregates responses through weighted majority voting. Our empirical evaluation on the MMLU and IMDB Movie Review datasets demonstrates that CaMVo achieves comparable or superior accuracy to full majority voting while significantly reducing labeling costs. This establishes CaMVo as a practical and robust solution for cost-efficient annotation in dynamic labeling environments.