Rate, Explain and Cite (REC): Enhanced Explanation and Attribution in Automatic Evaluation by Large Language Models
作者: Aliyah R. Hsu, James Zhu, Zhichao Wang, Bin Bi, Shubham Mehrotra, Shiva K. Pentyala, Katherine Tan, Xiang-Bo Mao, Roshanak Omrani, Sougata Chaudhuri, Regunathan Radhakrishnan, Sitaram Asur, Claire Na Cheng, Bin Yu
分类: cs.CL, cs.AI
发布日期: 2024-11-03 (更新: 2025-05-20)
🔗 代码/项目: GITHUB
💡 一句话要点
提出REC:通过LLM自动评估生成文本,并提供解释和可验证的引用。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 自动评估 文本生成 可解释性 可验证引用
📋 核心要点
- 现有LLM在文本生成方面表现出色,但其生成内容的质量评估,特别是事实准确性和避免幻觉方面,仍然面临挑战。
- 论文提出REC模型,通过微调通用LLM,使其能够评估生成文本的忠实性、指令遵循、连贯性和完整性,并提供解释和可验证的引用。
- 实验结果表明,REC-70B在内容评估方面优于现有最先进的LLM,能够提供更高质量的解释和引用,且偏差更小。
📝 摘要(中文)
大型语言模型(LLM)在生成连贯且高质量的文本方面表现出令人印象深刻的能力,使其在各种文本生成任务中具有重要价值。然而,对生成内容的严格评估至关重要,因为确保其质量仍然是一个重大挑战,这归因于诸如事实不准确和幻觉等持续存在的问题。本文介绍了三个经过微调的通用LLM自动评估器,REC-8B、REC-12B和REC-70B,专门用于评估生成文本的多个维度:忠实性、指令遵循、连贯性和完整性。这些模型不仅提供这些指标的评分,还提供详细的解释和可验证的引用,从而增强对内容的信任。此外,这些模型支持各种引用模式,以适应对延迟和粒度的不同要求。在各种基准上的广泛评估表明,我们的通用LLM自动评估器REC-70B优于最先进的LLM,通过提供更高质量的解释和引用以及最小的偏差,在内容评估方面表现出色。我们的REC数据集和模型可在https://github.com/adelaidehsu/REC上找到。
🔬 方法详解
问题定义:当前大型语言模型在文本生成任务中表现出色,但如何对其生成内容的质量进行有效评估是一个关键问题。现有的评估方法,例如人工评估,成本高昂且耗时。而基于LLM的自动评估器,在提供解释和可验证引用方面存在不足,难以保证评估结果的可靠性。
核心思路:论文的核心思路是训练一个能够自动评估生成文本质量,并提供详细解释和可验证引用的LLM自动评估器。通过让模型提供解释和引用,可以提高评估结果的可信度,并帮助用户理解评估的原因。
技术框架:REC模型的技术框架主要包括以下几个部分:1) 使用通用LLM作为基础模型;2) 构建包含评分、解释和引用的数据集;3) 在该数据集上对基础模型进行微调,使其具备评估、解释和引用的能力;4) 设计不同的引用模式,以适应不同的延迟和粒度需求。
关键创新:REC模型最重要的技术创新点在于其能够提供详细的解释和可验证的引用。这使得评估结果更加透明和可信,并有助于识别生成文本中的错误和偏差。此外,REC模型还支持多种引用模式,可以根据实际需求选择合适的引用粒度。
关键设计:REC模型使用了经过微调的通用LLM作为基础模型,具体包括REC-8B、REC-12B和REC-70B三个版本。微调过程中,使用了包含评分、解释和引用的数据集。为了支持不同的引用模式,模型设计了不同的prompt,以控制引用的粒度和延迟。损失函数方面,可能使用了交叉熵损失或类似的损失函数,以优化模型的评估、解释和引用能力(具体细节未知)。
🖼️ 关键图片
📊 实验亮点
实验结果表明,REC-70B在内容评估方面优于现有最先进的LLM。具体而言,REC-70B能够提供更高质量的解释和引用,且偏差更小。在多个基准测试中,REC-70B的性能均超过了其他基线模型,证明了其有效性。
🎯 应用场景
REC模型可应用于各种文本生成任务的自动评估,例如机器翻译、文本摘要、对话生成等。它可以帮助研究人员和开发者快速评估生成模型的性能,并识别潜在的问题。此外,REC模型还可以用于构建更可靠的LLM应用,例如自动问答系统和内容创作工具。
📄 摘要(原文)
LLMs have demonstrated impressive proficiency in generating coherent and high-quality text, making them valuable across a range of text-generation tasks. However, rigorous evaluation of this generated content is crucial, as ensuring its quality remains a significant challenge due to persistent issues such as factual inaccuracies and hallucination. This paper introduces three fine-tuned general-purpose LLM autoevaluators, REC-8B, REC-12B and REC-70B, specifically designed to evaluate generated text across several dimensions: faithfulness, instruction following, coherence, and completeness. These models not only provide ratings for these metrics but also offer detailed explanation and verifiable citation, thereby enhancing trust in the content. Moreover, the models support various citation modes, accommodating different requirements for latency and granularity. Extensive evaluations on diverse benchmarks demonstrate that our general-purpose LLM auto-evaluator, REC-70B, outperforms state-of-the-art LLMs, excelling in content evaluation by delivering better quality explanation and citation with minimal bias. Our REC dataset and models are available at https://github.com/adelaidehsu/REC.