PRISM: A Unified Framework for Post-Training LLMs Without Verifiable Rewards

📄 arXiv: 2601.04700v1 📥 PDF

作者: Mukesh Ghimire, Aosong Feng, Liwen You, Youzhi Luo, Fang Liu, Xuan Zhu

分类: cs.CL

发布日期: 2026-01-08

备注: Preprint. Under Review


💡 一句话要点

PRISM:一种无需可验证奖励的LLM后训练统一框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 后训练 无监督学习 过程奖励模型 自我一致性 数学推理 代码生成

📋 核心要点

  1. 现有LLM后训练方法依赖人工标注或外部验证,成本高昂,且难以获取高质量的难题解决方案。
  2. PRISM框架提出使用过程奖励模型(PRM)结合模型自身置信度,在无标签数据上进行有效训练。
  3. 实验表明,PRISM能实现更稳定的训练和更好的测试性能,同时控制模型内部置信度。

📝 摘要(中文)

目前的大语言模型(LLM)后训练技术依赖于昂贵的人工监督或外部验证器,以提高其在数学推理和代码生成等任务上的性能。然而,随着LLM解决问题能力的提高,进一步的改进可能需要人类无法获得的高质量难题解决方案。因此,从无标签数据中学习越来越受到研究界的关注。现有方法通过多数投票或将模型的内部置信度转化为奖励来提取模型的内部一致性信号。虽然熵或自我确定性等内部一致性指标不需要人工干预,但正如本文所展示的,这些对于大规模和长期训练而言是不可靠的信号。为了解决不可靠性问题,我们提出了PRISM,一个统一的训练框架,它使用过程奖励模型(PRM)来指导学习,同时利用模型在没有真实标签情况下的内部置信度。我们表明,有效地将PRM与自我确定性相结合,可以实现稳定的训练和更好的测试性能,并保持模型内部置信度的稳定。

🔬 方法详解

问题定义:现有LLM后训练方法依赖人工标注或外部验证,成本高昂且难以扩展。此外,模型内部一致性(如熵或自我确定性)作为学习信号时,在大规模和长期训练中表现出不可靠性,导致训练不稳定和性能下降。

核心思路:PRISM的核心思路是利用过程奖励模型(PRM)来弥补模型自身置信度作为学习信号时的不足。PRM旨在评估模型生成过程的质量,从而提供更可靠的奖励信号,指导模型学习。同时,结合模型自身的置信度,可以更有效地利用无标签数据进行训练。

技术框架:PRISM框架包含以下主要模块:1) LLM:待训练的大语言模型。2) 过程奖励模型(PRM):用于评估LLM生成过程质量的模型。3) 训练循环:LLM生成多个候选答案,PRM对每个答案的过程进行评估并给出奖励,同时LLM自身也输出一个置信度。将PRM奖励和模型置信度结合起来,作为训练信号来更新LLM的参数。

关键创新:PRISM的关键创新在于引入了过程奖励模型(PRM),并将其与模型的内部置信度相结合,形成一个更稳定和可靠的训练信号。这使得LLM能够在没有人工标注或外部验证的情况下,从无标签数据中进行有效的后训练。与仅依赖模型内部一致性的方法相比,PRISM能够更好地应对大规模和长期训练的挑战。

关键设计:PRM的设计至关重要,需要选择合适的模型结构和训练数据,使其能够准确评估生成过程的质量。PRM的训练可以采用监督学习或强化学习等方法。此外,如何有效地结合PRM奖励和模型置信度也是一个关键设计点,可以采用加权平均或其他融合策略。损失函数的设计需要考虑PRM奖励和模型置信度的贡献,以实现稳定的训练和最佳的性能。

📊 实验亮点

实验结果表明,PRISM框架在数学推理和代码生成任务上取得了显著的性能提升。与仅使用模型内部一致性的方法相比,PRISM能够实现更稳定的训练和更高的测试准确率。具体而言,在某些任务上,PRISM可以将性能提升超过10%,并且能够有效地控制模型的内部置信度,避免过拟合。

🎯 应用场景

PRISM框架可应用于各种需要LLM进行推理和生成的任务,例如数学问题求解、代码生成、文本摘要等。它降低了对人工标注数据的依赖,使得LLM能够更好地利用海量无标签数据进行训练,从而提高模型性能和泛化能力。该方法在教育、科研、软件开发等领域具有广泛的应用前景。

📄 摘要(原文)

Current techniques for post-training Large Language Models (LLMs) rely either on costly human supervision or on external verifiers to boost performance on tasks such as mathematical reasoning and code generation. However, as LLMs improve their problem-solving, any further improvement will potentially require high-quality solutions to difficult problems that are not available to humans. As a result, learning from unlabeled data is becoming increasingly attractive in the research community. Existing methods extract learning signal from a model's consistency, either by majority voting or by converting the model's internal confidence into reward. Although internal consistency metric such as entropy or self-certainty require no human intervention, as we show in this work, these are unreliable signals for large-scale and long-term training. To address the unreliability, we propose PRISM, a unified training framework that uses a Process Reward Model (PRM) to guide learning alongside model's internal confidence in the absence of ground-truth labels. We show that effectively combining PRM with self-certainty can lead to both stable training and better test-time performance, and also keep the model's internal confidence in check.