FUSE: Ensembling Verifiers with Zero Labeled Data
作者: Joonhyuk Lee, Virginia Ma, Sarah Zhao, Yash Nair, Asher Spector, Regev Cohen, Emmanuel J. Candès
分类: stat.ML, cs.CL, cs.LG
发布日期: 2026-04-20
💡 一句话要点
FUSE:一种无需标注数据的验证器集成方法,提升LLM输出质量
🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语言模型验证 无监督学习 集成学习 谱算法 条件依赖 LLM评判器 模型评估
📋 核心要点
- 现有LLM输出验证方法依赖耗时昂贵的真实标签,不完善的LLM评判器影响验证质量。
- FUSE通过控制验证器之间的条件依赖,改进谱算法的无监督性能,实现验证器集成。
- 实验表明,FUSE在多种基准测试中,无需真实标签即可达到或超过半监督方法的性能。
📝 摘要(中文)
模型输出验证正迅速成为大型语言模型(LLM)训练和实际部署的关键环节。然而,由于获取真实标签耗时且昂贵,实践中通常使用不完善的LLM评判器和奖励模型。我们提出了一种完全无监督的分数集成方法(FUSE),通过集成多个验证器来提高验证质量,且无需访问真实标签。FUSE的核心思想是控制验证器之间的条件依赖关系,从而改进集成文献中一类谱算法的无监督性能。尽管不需要任何真实标签,但在包含各种生成器模型、验证器和基准的测试时扩展实验中,FUSE通常能达到甚至超过半监督替代方案的性能。我们在一系列基准测试中验证了该方法,包括GPQA Diamond等传统学术基准,以及Humanity's Last Exam和IMO Shortlist questions等前沿基准。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)输出验证中,缺乏标注数据的问题。现有方法依赖人工标注,成本高昂,且LLM评判器本身存在误差,导致验证结果不准确。因此,如何在无标注数据的情况下,提升LLM输出验证的准确性和可靠性,是本文要解决的核心问题。
核心思路:FUSE的核心思路是利用多个验证器进行集成,通过控制验证器之间的条件依赖关系,来提高整体的验证性能。具体来说,FUSE旨在优化一类谱算法的无监督性能,该算法通过分析验证器之间的相关性来推断真实标签。通过巧妙地设计验证器之间的依赖关系,可以使得谱算法能够更准确地估计真实标签,从而提高集成验证器的性能。
技术框架:FUSE的技术框架主要包含以下几个步骤:1) 收集多个验证器对LLM输出的评分;2) 利用FUSE方法控制验证器之间的条件依赖关系;3) 使用谱算法对验证器评分进行集成,得到最终的验证结果。其中,控制条件依赖关系是FUSE的关键步骤,它通过调整验证器的权重或选择不同的验证器组合来实现。
关键创新:FUSE最重要的技术创新点在于其完全无监督的集成方法。与传统的半监督或监督方法不同,FUSE不需要任何人工标注的真实标签,而是通过分析验证器之间的内在关系来提高验证性能。这种无监督的方法大大降低了标注成本,使得FUSE能够更方便地应用于实际场景中。
关键设计:FUSE的关键设计在于如何控制验证器之间的条件依赖关系。具体来说,论文提出了一种基于谱算法的优化方法,该方法通过调整验证器的权重,使得验证器之间的相关性能够更好地反映真实标签。此外,论文还探讨了不同的验证器选择策略,例如选择具有互补性的验证器组合,以进一步提高集成性能。具体的参数设置和损失函数细节在论文中有详细描述,此处不再赘述。
🖼️ 关键图片
📊 实验亮点
FUSE在GPQA Diamond、Humanity's Last Exam和IMO Shortlist questions等基准测试中表现出色,无需任何真实标签即可达到或超过半监督方法的性能。实验结果表明,FUSE能够有效地集成多个验证器,提高LLM输出验证的准确性和可靠性,尤其是在缺乏标注数据的情况下。
🎯 应用场景
FUSE可广泛应用于各种需要验证LLM输出的场景,例如自动问答、代码生成、文本摘要等。该方法降低了对标注数据的依赖,使得LLM能够更可靠地应用于实际问题,具有重要的实际价值。未来,FUSE可以进一步扩展到多模态场景,例如图像描述和视频理解,并与其他无监督学习技术相结合,以提高验证性能。
📄 摘要(原文)
Verification of model outputs is rapidly emerging as a key primitive for both training and real-world deployment of large language models (LLMs). In practice, this often involves using imperfect LLM judges and reward models since ground truth acquisition can be time-consuming and expensive. We introduce Fully Unsupervised Score Ensembling (FUSE), a method for improving verification quality by ensembling verifiers without access to ground truth correctness labels. The key idea behind FUSE is to control conditional dependencies between verifiers in a manner that improves the unsupervised performance of a class of spectral algorithms from the ensembling literature. Despite requiring zero ground truth labels, FUSE typically matches or improves upon semi-supervised alternatives in test-time scaling experiments with diverse sets of generator models, verifiers, and benchmarks. In particular, we validate our method on both conventional academic benchmarks such as GPQA Diamond and on frontier, unsaturated benchmarks such as Humanity's Last Exam and IMO Shortlist questions.