ACORN: Aspect-wise Commonsense Reasoning Explanation Evaluation

📄 arXiv: 2405.04818v2 📥 PDF

作者: Ana Brassard, Benjamin Heinzerling, Keito Kudo, Keisuke Sakaguchi, Kentaro Inui

分类: cs.CL

发布日期: 2024-05-08 (更新: 2024-09-02)

备注: 18 pages, 7 figures, accepted to COLM 2024. Data available here: https://github.com/a-brassard/ACORN

🔗 代码/项目: GITHUB


💡 一句话要点

提出ACORN数据集,用于评估LLM在常识推理解释质量评估中的表现。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 常识推理 解释评估 大型语言模型 数据集 自然语言处理

📋 核心要点

  1. 自由文本解释质量评估主观且耗时,现有方法缺乏一致性和可扩展性。
  2. 提出ACORN数据集,包含3500个解释及多维度质量评级,用于评估LLM的解释评估能力。
  3. 实验表明,大型LLM在一致性上接近人类评估者,但与人类评级的相关性因质量方面而异。

📝 摘要(中文)

评估自由文本解释的质量是一项多方面、主观且劳动密集型的任务。大型语言模型(LLMs)因其潜在的一致性、可扩展性和成本效益而成为一种有吸引力的替代方案。在这项工作中,我们提出了ACORN,这是一个包含3500个自由文本解释和按方面划分的质量评级的新数据集,并使用它来评估LLM如何对解释进行评级。我们观察到,较大的模型输出的标签保持或提高了注释者之间的一致性,表明它们在人类评估者之间的预期方差范围内。然而,它们与多数投票的人工评级之间的相关性在不同的质量方面有所不同,表明它们不能完全替代人工。反过来,在某些情况下,使用LLM作为一小群人工评估者的补充,提高了与原始多数标签的相关性。然而,这种效果仅限于人工评估者稀缺的情况,并且额外的人工评估者在所有情况下都具有更显著的效果。总的来说,我们不建议使用LLM完全替代人工评估者,但鼓励在以有针对性的人工参与结束的配置中使用它们。数据可在此处获取:https://github.com/a-brassard/ACORN

🔬 方法详解

问题定义:论文旨在解决自由文本解释质量评估中人工评估成本高昂、主观性强的问题。现有方法依赖于大量人工标注,难以保证一致性和可扩展性,尤其是在常识推理领域,解释的质量评估更加复杂。

核心思路:论文的核心思路是利用大型语言模型(LLMs)的强大能力,自动评估常识推理解释的质量。通过构建包含人工标注的ACORN数据集,训练和评估LLM在不同质量维度上的表现,探索LLM替代或辅助人工评估的可行性。

技术框架:论文主要包含以下几个阶段:1) 构建ACORN数据集,收集常识推理任务的自由文本解释,并进行多维度的人工质量评级;2) 使用ACORN数据集训练和评估不同的LLM,包括不同规模的模型;3) 分析LLM的评估结果与人工评级之间的相关性,以及不同质量维度上的差异;4) 探索LLM辅助人工评估的策略,例如在人工评估者稀缺时使用LLM进行初步筛选。

关键创新:论文的关键创新在于构建了ACORN数据集,这是一个专门用于评估常识推理解释质量的数据集,并从多个维度对解释进行标注。此外,论文还系统地评估了LLM在解释评估任务中的表现,并提出了LLM辅助人工评估的策略。与现有方法相比,该方法旨在降低人工成本,提高评估效率。

关键设计:ACORN数据集包含多个质量维度,例如相关性、完整性和清晰度。论文使用Spearman相关系数来衡量LLM评估结果与人工评级之间的相关性。在LLM辅助人工评估方面,论文探索了不同的策略,例如使用LLM进行初步筛选,然后由人工评估者对筛选后的解释进行评估。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,大型LLM在解释评估任务中表现出一定潜力,其输出标签与人工评估者之间的一致性较高。然而,LLM与人工评级的相关性在不同质量维度上存在差异,表明LLM不能完全替代人工评估。在人工评估者稀缺的情况下,使用LLM辅助人工评估可以提高评估质量,但效果有限。

🎯 应用场景

该研究成果可应用于常识推理、自然语言生成等领域,帮助自动评估模型生成的解释质量,提高模型的可解释性和可靠性。此外,该方法还可用于教育领域,自动评估学生的解答质量,提供个性化反馈。

📄 摘要(原文)

Evaluating the quality of free-text explanations is a multifaceted, subjective, and labor-intensive task. Large language models (LLMs) present an appealing alternative due to their potential for consistency, scalability, and cost-efficiency. In this work, we present ACORN, a new dataset of 3,500 free-text explanations and aspect-wise quality ratings, and use it to evaluate how LLMs rate explanations. We observed that larger models outputted labels that maintained or increased the inter-annotator agreement, suggesting that they are within the expected variance between human raters. However, their correlation with majority-voted human ratings varied across different quality aspects, indicating that they are not a complete replacement. In turn, using LLMs as a supplement to a smaller group of human raters in some cases improved the correlation with the original majority labels. However, the effect was limited to cases where human raters were scarce, and an additional human rater had a more pronounced effect in all cases. Overall, we recommend against using LLMs as a complete replacement for human raters but encourage using them in configurations that end with targeted human involvement. Data available here: https://github.com/a-brassard/ACORN