Scaling Up Active Testing to Large Language Models

📄 arXiv: 2508.09093v2 📥 PDF

作者: Gabrielle Berrada, Jannik Kossen, Freddie Bickford Smith, Muhammed Razzak, Yarin Gal, Tom Rainforth

分类: cs.LG, stat.ML

发布日期: 2025-08-12 (更新: 2025-11-24)

备注: Published at NeurIPS 2025


💡 一句话要点

提出高效的主动测试方法以评估大型语言模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 主动测试 大型语言模型 上下文学习 评估方法 计算效率

📋 核心要点

  1. 现有的主动测试方法在评估大型语言模型时面临高计算成本的问题,限制了其应用。
  2. 本文提出通过上下文学习构建廉价的替代模型,避免在主动测试循环中更新,从而降低计算负担。
  3. 实验结果表明,使用主动测试方法相比随机数据获取,能够显著提高大型语言模型的性能评估准确性。

📝 摘要(中文)

主动测试通过精心的数据获取实现了预测模型的标签高效评估,但其计算成本可能非常高。本文提出了一些节省成本的措施,使主动测试能够扩展到大型语言模型(LLMs)。我们展示了用于指导数据获取的替代模型可以通过上下文学习廉价构建,并且在主动测试循环中无需更新,且可以小于目标模型。我们甚至发现,在不使用目标模型进行预测的情况下,也能做出良好的数据获取决策。因此,我们能够相较于随机获取数据,获得更准确的LLM性能评估。此外,我们还引入了一种评估误差的自助估计器,证明其在单次运行中是评估主动测试效果的有用指标。

🔬 方法详解

问题定义:本文旨在解决主动测试在评估大型语言模型时的高计算成本问题。现有方法通常需要频繁更新模型,导致效率低下。

核心思路:通过使用上下文学习构建一个廉价的替代模型,避免在主动测试循环中进行更新,从而降低计算开销,同时仍能有效指导数据获取。

技术框架:整体架构包括数据获取模块、替代模型构建模块和评估模块。数据获取模块根据替代模型的输出选择最具信息量的数据,替代模型则通过上下文学习进行构建。

关键创新:最重要的创新在于提出了无需更新的替代模型,且该模型可以小于目标模型,显著降低了计算成本。与现有方法相比,这种设计使得主动测试更具可扩展性。

关键设计:在参数设置上,替代模型的规模小于目标模型,且使用简单的上下文学习方法。损失函数设计上,重点关注数据获取的有效性,而非模型预测的准确性。

📊 实验亮点

实验结果显示,使用主动测试方法相比随机数据获取,评估准确性显著提高,具体提升幅度未知。此外,引入的自助估计器有效指示了主动测试的效果,为后续研究提供了新的评估工具。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、机器翻译和对话系统等。通过提高大型语言模型的评估效率,能够加速模型的开发与迭代,提升实际应用中的性能表现,具有重要的实际价值和未来影响。

📄 摘要(原文)

Active testing enables label-efficient evaluation of predictive models through careful data acquisition, but it can pose a significant computational cost. We identify cost-saving measures that enable active testing to be scaled up to large language models (LLMs). In particular we show that the surrogate model used to guide data acquisition can be constructed cheaply using in-context learning, does not require updating within an active-testing loop, and can be smaller than the target model. We even find we can make good data-acquisition decisions without making predictions with the target model. As a result we are able to achieve much more accurate evaluations of LLM performance relative to using randomly acquired data. We additionally introduce a bootstrap estimator of evaluation error, which we show to be a useful indicator of how well active testing is working within a single run.