Aligning Black-box Language Models with Human Judgments
作者: Gerrit J. J. van den Burg, Gen Suzuki, Wei Liu, Murat Sensoy
分类: cs.CL, cs.AI, cs.LG
发布日期: 2025-02-07
备注: Accepted for publication at NAACL 2025 (Findings)
💡 一句话要点
提出线性映射框架,对齐黑盒语言模型与人类主观判断
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语言模型对齐 人类判断 线性映射 零样本学习 少样本学习
📋 核心要点
- 现有方法难以使LLM的判断与人类主观判断对齐,因为人类判断存在个体差异和偏差。
- 该论文提出一种线性映射框架,无需重新训练或微调LLM,即可对齐LLM判断与人类判断。
- 实验结果表明,该方法在多个任务上显著提升了LLM判断与人类判断的一致性,甚至超越了人际一致性。
📝 摘要(中文)
大型语言模型(LLM)越来越多地被用作自动评估器,用于评估推荐系统、搜索引擎和其他主观任务。相比于耗时、昂贵且难以扩展的人工评估,LLM提供了一种高效的自动化评估方案。然而,由于这些系统最终是为人设计的,LLM的判断必须与人类评估者高度一致,以确保系统保持以人为本。另一方面,由于个体差异和人类判断中的偏差,对齐LLM判断与人类评估者具有挑战性。我们提出了一种简单而有效的框架,用于将LLM判断与个体人类评估者或其聚合判断对齐,无需重新训练或微调LLM。我们的方法学习LLM输出与人类判断之间的线性映射,在29个任务中实现了超过142%的平均一致性提升,且仅使用少量校准样本进行训练。值得注意的是,我们的方法在零样本和少样本设置中有效,在六个任务中的四个上超过了人际一致性,并使较小的LLM能够达到与较大模型相当的性能。
🔬 方法详解
问题定义:论文旨在解决如何使黑盒语言模型(LLM)的判断与人类主观判断对齐的问题。现有方法要么依赖于昂贵且耗时的人工评估,要么难以克服人类判断中的个体差异和偏差,导致LLM的评估结果与人类的真实感受不一致。
核心思路:论文的核心思路是学习一个线性映射,将LLM的输出转换为与人类判断相一致的评分。这种方法避免了对LLM进行重新训练或微调,从而降低了计算成本和复杂性,同时能够灵活地适应不同人类评估者的偏好。
技术框架:该框架主要包含两个阶段:1) 使用LLM对评估对象进行评分,得到LLM的原始输出;2) 使用少量校准样本,学习一个线性映射,将LLM的原始输出映射到与人类判断相一致的评分。该线性映射可以通过最小化LLM预测评分与人类评分之间的均方误差来学习。
关键创新:该方法最重要的创新在于其简单性和有效性。通过学习一个线性映射,该方法能够显著提升LLM判断与人类判断的一致性,而无需对LLM进行任何修改。此外,该方法在零样本和少样本设置下均表现良好,使其具有很强的实用性。
关键设计:该方法的关键设计在于线性映射的选择和校准样本的选取。线性映射的参数可以通过最小化均方误差来优化。校准样本的选择应该具有代表性,能够覆盖评估对象的不同方面。论文中没有明确说明线性映射的具体参数设置,但强调了校准样本数量的重要性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在29个任务中实现了超过142%的平均一致性提升。在六个任务中的四个上,该方法超过了人际一致性。此外,该方法还能够使较小的LLM达到与较大模型相当的性能。这些结果表明,该方法具有很强的实用性和有效性。
🎯 应用场景
该研究成果可广泛应用于各种需要主观评估的场景,例如推荐系统、搜索引擎、对话系统等。通过将LLM的判断与人类判断对齐,可以提高系统的用户满意度和体验。此外,该方法还可以用于自动化评估模型的性能,从而加速模型的开发和迭代。
📄 摘要(原文)
Large language models (LLMs) are increasingly used as automated judges to evaluate recommendation systems, search engines, and other subjective tasks, where relying on human evaluators can be costly, time-consuming, and unscalable. LLMs offer an efficient solution for continuous, automated evaluation. However, since the systems that are built and improved with these judgments are ultimately designed for human use, it is crucial that LLM judgments align closely with human evaluators to ensure such systems remain human-centered. On the other hand, aligning LLM judgments with human evaluators is challenging due to individual variability and biases in human judgments. We propose a simple yet effective framework to align LLM judgments with individual human evaluators or their aggregated judgments, without retraining or fine-tuning the LLM. Our approach learns a linear mapping between the LLM's outputs and human judgments, achieving over 142% average improvement in agreement across 29 tasks with only a small number of calibration examples used for training. Notably, our method works in zero-shot and few-shot settings, exceeds inter-human agreement on four out of six tasks, and enables smaller LLMs to achieve performance comparable to that of larger models.