Active Testing of Large Language Models via Approximate Neyman Allocation
作者: Zeli Liu, Jiancheng Zhang, Cong Liu, Yinglun Zhu
分类: cs.AI
发布日期: 2026-05-11
💡 一句话要点
提出基于近似Neyman分配的主动测试算法,显著降低大语言模型生成任务的评估成本
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 主动测试 生成式任务 Neyman分配 语义熵 模型评估 计算效率
📋 核心要点
- 现有主动测试方法多局限于分类任务,难以有效处理生成式任务中复杂的评估需求,导致在大规模模型评估时面临高昂的计算与标注成本。
- 论文提出一种基于语义熵分层与近似Neyman分配的算法,通过代理模型提取信息,实现对评估池的高效采样与结果估计。
- 实验表明,该方法在多个基准测试中表现优异,相较于均匀采样显著降低了均方误差,并有效节省了评估预算,逼近理论最优的Oracle性能。
📝 摘要(中文)
大语言模型(LLM)的可靠评估贯穿从预训练到测试时扩展的全生命周期,已成为一项高昂且持续的成本。随着模型规模扩大及任务对专家标注需求的增加,评估所需的计算与标注开销急剧上升。主动测试旨在通过从评估池中选取少量且具有代表性的子集来近似评估结果,从而缓解这一瓶颈。然而,现有方法主要针对分类任务,在生成式任务上表现不佳。本文提出了一种专门针对生成式任务的主动测试算法,利用代理模型的语义熵对评估池进行分层,并基于代理模型提取的信号进行近似Neyman分配。在多个语言及多模态基准测试中,该方法显著优于基线,逼近Oracle-Neyman性能,相较于均匀采样实现了高达28%的均方误差(MSE)降低,并平均节省了22.9%的评估预算。
🔬 方法详解
问题定义:论文旨在解决大语言模型生成任务中评估成本过高的问题。现有主动测试方法主要依赖分类任务的置信度指标,无法直接迁移至生成式任务,导致在处理开放式生成评估时,采样效率低下且难以准确估计整体性能。
核心思路:论文引入了近似Neyman分配策略。其核心思想是将评估池划分为多个具有不同语义特征的层(Strata),并根据各层的方差大小动态分配样本量,从而在有限预算下最小化评估结果的估计方差。
技术框架:算法流程分为三个阶段:首先利用代理模型对评估池进行语义特征提取;其次基于语义熵计算各样本的“不确定性”或“难度”指标,将评估池划分为多个分层;最后执行近似Neyman分配,根据各层的统计特性计算采样权重,并对选定样本进行人工或专家评估以推断整体表现。
关键创新:创新点在于将语义熵作为生成任务中评估难度的代理指标,并成功将经典的Neyman分配理论应用于LLM的主动测试场景,解决了生成任务中缺乏直接置信度度量的问题。
关键设计:关键设计在于利用代理模型(Surrogate Model)生成语义熵分布,通过该分布对评估池进行分层(Stratification)。通过这种方式,算法能够优先采样那些模型表现不稳定或语义差异较大的样本,从而以极小的样本量实现对整体性能的高精度估计。
🖼️ 关键图片
📊 实验亮点
实验结果显示,该方法在多个语言及多模态基准上表现稳健。相较于传统的均匀采样,该方法实现了高达28%的MSE降低,在保持评估精度的同时,平均节省了22.9%的预算开销。其性能表现紧密追踪Oracle-Neyman上限,证明了该算法在资源受限环境下的高效性与实用性。
🎯 应用场景
该研究适用于大语言模型与多模态模型的全生命周期评估,特别是在需要昂贵专家标注或大规模推理计算的场景中。它能显著降低模型迭代过程中的评估开销,加速模型研发周期,并为企业级模型部署提供低成本、高精度的质量监控方案。
📄 摘要(原文)
Large language models (LLMs) require reliable evaluation from pre-training to test-time scaling, making evaluation a recurring rather than one-off cost. As model scales grow and target tasks increasingly demand expert annotators, both the compute and labeling costs needed for each evaluation rise rapidly. Active testing aims to alleviate this bottleneck by approximating the evaluation result from a small but informative subset of the evaluation pool. However, existing approaches primarily target classification and break down on generative tasks. We introduce a novel active testing algorithm tailored to generative tasks. Our method leverages semantic entropy from surrogate models to stratify the evaluation pool and then conducts approximate Neyman allocation based on signals extracted from these surrogates. Across multiple language and multimodal benchmarks and a range of surrogate-target model pairs, our method significantly improves on baselines and closely tracks Oracle-Neyman, delivering up to 28\% MSE reduction over Uniform Sampling and an average of 22.9\% budget savings.