Features as Rewards: Scalable Supervision for Open-Ended Tasks via Interpretability
作者: Aaditya Vikram Prasad, Connor Watts, Jack Merullo, Dhruvil Gala, Owen Lewis, Thomas McGrath, Ekdeep Singh Lubana
分类: cs.LG
发布日期: 2026-02-10
💡 一句话要点
提出RLFR框架,利用特征作为奖励,提升开放任务中语言模型的真实性。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 强化学习 语言模型 幻觉减少 可解释性 特征奖励
📋 核心要点
- 现有语言模型在开放任务中易产生幻觉,缺乏有效的监督机制来保证生成内容的真实性。
- RLFR框架利用语言模型内部特征作为奖励信号,引导模型学习减少幻觉行为,实现可扩展的监督。
- 实验表明,RLFR框架显著降低了语言模型的幻觉率,同时保持了在其他任务上的性能水平。
📝 摘要(中文)
本文提出了一种名为RLFR(Reinforcement Learning from Feature Rewards)的强化学习框架,用于解决开放任务中语言模型产生幻觉的问题。该框架利用语言模型中编码抽象概念(如事实性和意图)的特征作为奖励函数,指导模型学习。通过新颖的探测框架识别潜在的幻觉声明,RLFR训练模型在不确定事实性的情况下进行干预和纠正。此外,该框架支持可扩展的测试时计算,同样由奖励特征引导。在Gemma-3-12B-IT模型上的实验表明,该策略能够将幻觉发生的可能性降低58%,同时保持在标准基准测试上的性能。该研究通过将监督建立在特征之上,为利用可解释性学习开放任务引入了一种新的范式。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在开放式任务中生成不真实信息的“幻觉”问题。现有方法通常依赖人工标注或外部知识库,成本高昂且难以扩展。此外,现有方法难以在模型内部进行干预,缺乏对模型生成过程的细粒度控制。
核心思路:论文的核心思路是将语言模型内部学习到的特征(例如,表示事实性的特征)作为强化学习的奖励信号。通过这种方式,模型可以直接优化其生成过程,以最大化生成内容的真实性。这种方法避免了人工标注的成本,并且能够利用模型自身的知识来指导学习。
技术框架:RLFR框架包含以下几个主要模块:1) 探测框架:用于识别模型生成的文本中潜在的幻觉声明。2) 特征提取器:从语言模型中提取表示事实性等概念的特征。3) 强化学习策略:使用提取的特征作为奖励函数,训练一个策略来控制模型的生成过程,例如,在模型不确定时进行干预和纠正。4) 测试时计算模块:在测试阶段,利用奖励特征引导计算资源的分配,以提高生成内容的质量。
关键创新:该论文最重要的创新点在于将语言模型内部的特征作为强化学习的奖励信号。这种方法能够实现可扩展的监督,避免了人工标注的成本,并且能够利用模型自身的知识来指导学习。此外,该论文还提出了一个新颖的探测框架,用于识别潜在的幻觉声明。
关键设计:论文使用了一种基于对比学习的探测框架来识别幻觉声明。该框架通过比较模型对真实陈述和虚假陈述的置信度来判断是否存在幻觉。强化学习部分使用了PPO算法,奖励函数由提取的特征线性组合而成,权重通过实验调整。测试时计算模块根据奖励特征动态调整计算资源,例如,在模型不确定时增加计算量。
📊 实验亮点
实验结果表明,在Gemma-3-12B-IT模型上,使用RLFR框架训练的策略能够将幻觉发生的可能性降低58%,同时在标准基准测试(如MMLU和HellaSwag)上保持了与原始模型相当的性能。这表明该方法能够在提高模型真实性的同时,避免牺牲其通用能力。
🎯 应用场景
该研究成果可应用于各种需要高可信度文本生成的场景,例如:自动问答系统、新闻生成、科学写作等。通过降低语言模型的幻觉率,可以提高这些应用的可信度和实用性。此外,该方法为利用模型内部知识进行自我监督提供了一种新的思路,具有广泛的应用前景。
📄 摘要(原文)
Language models trained on large-scale datasets have been shown to learn features that encode abstract concepts such as factuality or intent. Such features are traditionally used for test-time monitoring or steering. We present an alternative affordance: features as scalable supervision for open-ended tasks. We consider the case of hallucination-reduction as a desirable, yet open-ended behavior and design a reinforcement learning (RL) pipeline, titled RLFR (Reinforcement Learning from Feature Rewards), that uses features as reward functions. Grounded in a novel probing framework that identifies candidate hallucinated claims, our pipeline teaches a model to intervene and correct its completions when it is uncertain of their factuality. Furthermore, the pipeline enables scalable test-time compute, guided once more by our reward features. This end-to-end process operationalized on Gemma-3-12B-IT results in a policy that is 58% less likely to hallucinate compared to the original model, while preserving performance on standard benchmarks. Taken together, by grounding supervision in the language of features, this paper introduces a novel paradigm in the use of interpretability for learning open-ended tasks.