Self-Judge: Selective Instruction Following with Alignment Self-Evaluation

📄 arXiv: 2409.00935v1 📥 PDF

作者: Hai Ye, Hwee Tou Ng

分类: cs.CL

发布日期: 2024-09-02

备注: Under review


💡 一句话要点

提出Self-Judge框架,通过自评估提升大语言模型指令遵循的可靠性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 指令遵循 大语言模型 自评估 自训练 judge模型 奖励模型 选择性执行

📋 核心要点

  1. 现有指令微调的LLM在测试时数据分布变化时,指令遵循的可靠性降低,可能产生错误或未对齐内容。
  2. Self-J框架利用LLM的自评估能力,通过黄金参考答案和语义相似性评估,自训练judge模型预测响应质量。
  3. 实验表明,Self-Judge与GPT-4的相关性优于其他基线模型,且能作为奖励模型提升WizardLM等模型的性能。

📝 摘要(中文)

预训练的大型语言模型(LLM)可以通过指令微调来适应人类指令。然而,由于测试时数据分布的变化,它们可能无法始终准确地执行指令,在充当聊天助手时可能会产生事实错误或未对齐的内容。为了提高LLM遵循指令的可靠性,我们提出了选择性指令遵循的研究,即如果预期响应质量较低,系统拒绝执行指令。我们训练judge模型来预测模型响应的数值质量分数。为了解决数据稀缺问题,我们引入了Self-J,这是一个新颖的自训练框架,用于开发judge模型,而无需人工标注的质量分数。我们的方法利用模型固有的自评估能力,从标记的指令微调数据中提取关于响应质量的信息。它结合了一个黄金参考答案来促进自评估,并通过评估响应样本和黄金参考之间的语义相似性来进行重新校准。在训练阶段,我们实施自蒸馏作为一种正则化技术,以增强无参考估计的能力。为了验证通用指令遵循任务的对齐评估,我们从Hugging Face收集了大规模高质量的指令,用于模型训练和评估。对五个开源模型的大量实验表明,我们的方法比强大的基线(例如,从GPT-4和GPT-3.5-turbo中提炼的监督模型)更与GPT-4相关。我们的分析表明,我们的模型在各个领域都具有很强的泛化能力。此外,我们的judge模型可以作为良好的奖励模型,例如,在使用我们的judge模型进行best-of-32采样时,分别将WizardLM-13B-V1.2在AlpacaEval的v1和v2版本中从89.17提高到92.48,以及从12.03提高到15.90。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在指令遵循任务中,由于测试数据分布偏移导致可靠性下降的问题。现有方法依赖人工标注数据训练judge模型,成本高昂且难以泛化。

核心思路:论文的核心思路是利用LLM自身的能力进行自评估,从而在缺乏人工标注的情况下训练judge模型。通过引入黄金参考答案,并结合响应与参考答案的语义相似性,实现对响应质量的有效评估。

技术框架:Self-J框架包含以下主要阶段:1) 数据准备:使用带有黄金参考答案的指令微调数据集。2) 自评估:利用LLM对生成的响应进行自评估,并与黄金参考答案进行比较。3) judge模型训练:使用自评估结果作为标签,训练judge模型预测响应质量。4) 自蒸馏:使用自蒸馏技术,提高judge模型在无参考情况下的评估能力。

关键创新:该论文最重要的创新点在于提出了一个完全基于LLM自评估的judge模型训练框架,无需人工标注数据。通过引入黄金参考答案和语义相似性评估,有效地提高了自评估的准确性。

关键设计:关键设计包括:1) 使用余弦相似度计算响应与黄金参考答案之间的语义相似性。2) 使用自蒸馏技术,将有参考的评估能力迁移到无参考的评估中。3) 损失函数的设计,综合考虑了自评估结果和语义相似性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Self-Judge框架训练的judge模型与GPT-4的评估结果具有更高的相关性,优于从GPT-4和GPT-3.5-turbo蒸馏得到的监督模型。此外,该judge模型可以作为奖励模型,显著提升WizardLM-13B-V1.2在AlpacaEval上的性能,例如在v1版本中从89.17提升到92.48。

🎯 应用场景

该研究成果可应用于各种需要可靠指令遵循的场景,例如智能助手、自动问答系统和内容生成。通过选择性地执行指令,可以避免生成低质量或错误的内容,提高用户体验和系统的整体可靠性。未来,该方法可以扩展到更复杂的任务和领域,例如代码生成和科学研究。

📄 摘要(原文)

Pre-trained large language models (LLMs) can be tailored to adhere to human instructions through instruction tuning. However, due to shifts in the distribution of test-time data, they may not always execute instructions accurately, potentially generating factual errors or misaligned content when acting as chat assistants. To enhance the reliability of LLMs in following instructions, we propose the study of selective instruction following, whereby the system declines to execute instructions if the anticipated response quality is low. We train judge models that can predict numerical quality scores for model responses. To address data scarcity, we introduce Self-J, a novel self-training framework for developing judge models without needing human-annotated quality scores. Our method leverages the model's inherent self-evaluation capability to extract information about response quality from labeled instruction-tuning data. It incorporates a gold reference answer to facilitate self-evaluation and recalibrates by assessing the semantic similarity between the response sample and the gold reference. During the training phase, we implement self-distillation as a regularization technique to enhance the capability of reference-free estimation. To validate alignment evaluation on general instruction-following tasks, we collect large-scale high-quality instructions from Hugging Face for model training and evaluation. Extensive experiments on five open-source models show that our method correlates much more with GPT-4 than strong baselines, e.g., supervised models distilled from GPT-4 and GPT-3.5-turbo. Our analysis shows our model's strong generalization across domains. Additionally, our judge models serve as good reward models, e.g., boosting WizardLM-13B-V1.2 from 89.17 to 92.48 and from 12.03 to 15.90 in version v1 and v2 of AlpacaEval respectively using best-of-32 sampling with our judge models.