Robust LLM Performance Certification via Constrained Maximum Likelihood Estimation
作者: Minghe Shen, Ananth Balashankar, Adam Fisch, David Madras, Miguel Rodrigues
分类: cs.CL, cs.AI
发布日期: 2026-04-07
💡 一句话要点
提出基于约束最大似然估计的LLM性能稳健认证方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 失败率估计 约束最大似然估计 LLM认证 模型评估
📋 核心要点
- 现有LLM失败率评估方法面临人工标注成本高和自动标注偏差大的挑战。
- 提出基于约束最大似然估计的方法,融合人工标注、LLM-judge标注和领域约束。
- 实验表明,该方法在不同实验条件下均优于现有方法,提供更准确和低方差的估计。
📝 摘要(中文)
为了安全部署大型语言模型(LLM),严格评估其失败率至关重要。然而,实践者常常需要在昂贵的人工标注和可能存在严重偏差的自动标注方案(如“LLM-as-a-Judge”)之间权衡。本文提出了一种新的、实用且高效的LLM失败率估计方法,该方法基于约束最大似然估计(MLE)。我们的方法整合了三个不同的信号来源:(i)少量、高质量的人工标注校准集,(ii)大量的LLM-judge标注语料库,以及,(iii)通过领域特定约束获得的额外辅助信息,这些约束来源于对judge性能统计数据的已知界限。我们通过全面的实证研究验证了该方法,并将其与最先进的基线方法(如Prediction-Powered Inference (PPI))进行了比较。在不同的实验条件下——包括不同的judge准确率、校准集大小和LLM失败率——我们的约束MLE始终提供比现有方法更准确和更低方差的估计。通过超越自动judge的“黑盒”使用,转向一个灵活的框架,我们为LLM失败率认证提供了一条原则性、可解释和可扩展的途径。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)的失败率估计问题。现有方法,如完全依赖人工标注成本高昂,而使用“LLM-as-a-Judge”进行自动标注则可能引入严重的偏差,导致估计结果不准确。因此,如何在保证效率的同时,获得对LLM失败率的可靠估计是一个关键挑战。
核心思路:论文的核心思路是将多种信息来源进行整合,包括少量高质量的人工标注数据、大量的LLM-judge标注数据,以及基于领域知识的约束条件。通过约束最大似然估计(MLE),在满足约束条件的前提下,最大化数据的似然函数,从而得到对LLM失败率的更准确估计。这种方法旨在平衡人工标注的准确性和自动标注的效率,并利用领域知识来减少偏差。
技术框架:该方法的技术框架主要包含以下几个步骤:1) 收集少量人工标注的校准集;2) 使用LLM-judge对大量数据进行自动标注;3) 基于领域知识,定义关于judge性能统计数据的约束条件;4) 构建约束最大似然估计模型,将人工标注、LLM-judge标注和领域约束作为输入;5) 求解约束优化问题,得到LLM失败率的估计值。
关键创新:该方法最重要的技术创新点在于将领域知识以约束条件的形式融入到最大似然估计中。与传统的MLE方法相比,该方法能够利用额外的辅助信息来提高估计的准确性和鲁棒性。此外,该方法还提供了一个灵活的框架,可以方便地集成不同的信息来源和约束条件。
关键设计:关键设计包括:1) 如何选择合适的领域约束,例如judge准确率的上下界;2) 如何构建合适的似然函数,以反映不同数据来源的贡献;3) 如何求解约束优化问题,可以使用现成的优化算法或专门设计的算法。此外,校准集的大小和LLM-judge的选择也会影响最终的估计结果。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在不同的judge准确率、校准集大小和LLM失败率下,均优于现有的基线方法,如Prediction-Powered Inference (PPI)。具体而言,该方法能够提供更准确和更低方差的LLM失败率估计。例如,在某些实验条件下,该方法的估计误差比PPI降低了显著的百分比。
🎯 应用场景
该研究成果可应用于LLM的安全性评估和可靠性认证。通过准确估计LLM的失败率,可以帮助开发者和用户更好地了解LLM的风险,并采取相应的措施来降低风险。例如,可以根据失败率来调整LLM的部署策略,或者开发专门的工具来检测和纠正LLM的错误。此外,该方法还可以用于比较不同LLM的性能,为用户选择合适的LLM提供依据。
📄 摘要(原文)
The ability to rigorously estimate the failure rates of large language models (LLMs) is a prerequisite for their safe deployment. Currently, however, practitioners often face a tradeoff between expensive human gold standards and potentially severely-biased automatic annotation schemes such as "LLM-as-a-Judge" labeling. In this paper, we propose a new, practical, and efficient approach to LLM failure rate estimation based on constrained maximum-likelihood estimation (MLE). Our method integrates three distinct signal sources: (i) a small, high-quality human-labeled calibration set, (ii) a large corpus of LLM-judge annotations, and, most importantly, (iii) additional side information via domain-specific constraints derived from known bounds on judge performance statistics. We validate our approach through a comprehensive empirical study, benchmarking it against state-of-the-art baselines like Prediction-Powered Inference (PPI). Across diverse experimental regimes -- spanning varying judge accuracies, calibration set sizes, and LLM failure rates -- our constrained MLE consistently delivers more accurate and lower-variance estimates than existing methods. By moving beyond the "black-box" use of automated judges to a flexible framework, we provide a principled, interpretable, and scalable pathway towards LLM failure-rate certification.