Evaluating the Evaluation of Diversity in Commonsense Generation

📄 arXiv: 2506.00514v1 📥 PDF

作者: Tianhui Zhang, Bei Peng, Danushka Bollegala

分类: cs.CL

发布日期: 2025-05-31

备注: ACL 2025 Main


💡 一句话要点

针对常识生成多样性评估,提出基于内容的评估指标优于形式评估指标的结论。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 常识生成 多样性评估 元评估 大型语言模型 自然语言处理

📋 核心要点

  1. 现有常识生成多样性评估指标(基于形式或内容重叠)缺乏系统性评估,难以确定最佳指标。
  2. 利用大型语言模型(LLM)标注多样性数据集,并进行元评估,对比形式和内容评估指标。
  3. 实验表明,基于内容的指标与LLM评分高度相关,优于基于形式的指标,更适合评估多样性。

📝 摘要(中文)

在常识生成任务中,模型不仅要生成符合常识的回复,还要捕捉多个不同的观点。先前的工作提出了许多基于形式和内容层面重叠的评估指标,用于评估常识生成模型的多样性。然而,目前尚不清楚哪些指标最适合评估常识生成中的多样性。为了弥补这一差距,我们对常识生成的多样性指标进行了系统的元评估。我们发现,基于形式的多样性指标往往会高估句子集的多样性,即使是随机生成的句子也会被赋予过高的多样性分数。然后,我们使用大型语言模型(LLM)创建了一个新的数据集,该数据集针对常识生成任务生成的句子的多样性进行了标注,并使用它对现有的多样性评估指标进行了元评估。实验结果表明,基于内容的评估指标始终优于基于形式的指标,与基于LLM的评分显示出高度相关性。我们建议未来的常识生成工作应使用基于内容的指标来评估其输出的多样性。

🔬 方法详解

问题定义:常识生成任务需要模型生成多样化的回复,但现有评估指标在衡量多样性方面存在问题。基于形式的指标(如n-gram overlap)容易被表面相似性误导,高估随机生成句子的多样性。缺乏一个可靠的评估框架来指导模型开发。

核心思路:通过人工标注(借助LLM)构建高质量的多样性评估数据集,然后将现有评估指标与人工标注进行对比,从而确定哪些指标能够更准确地反映句子集的多样性。核心在于利用LLM的理解能力,模拟人类对多样性的判断。

技术框架:该研究主要包含两个阶段:1) 构建多样性评估数据集:使用LLM对常识生成任务的句子集进行多样性评分。2) 元评估:计算现有多样性评估指标与LLM评分之间的相关性,以此评估指标的有效性。

关键创新:该研究的关键创新在于使用LLM来辅助构建多样性评估数据集。与传统的人工标注相比,LLM可以更高效地处理大量数据,并且能够捕捉到更细微的语义差异,从而提高数据集的质量。此外,该研究还系统地比较了不同类型的多样性评估指标,为未来的研究提供了指导。

关键设计:LLM被用于对句子集的多样性进行评分,评分标准需要仔细设计,以确保评分的准确性和一致性。同时,需要选择合适的LLM,并对其进行微调,以提高其在多样性评估方面的性能。相关性分析方法也需要仔细选择,以确保能够准确地反映评估指标与LLM评分之间的关系。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于内容的评估指标(如embedding-based metrics)与LLM评分的相关性显著高于基于形式的指标(如BLEU、ROUGE)。例如,某些基于内容的指标与LLM评分的相关系数达到了0.6以上,而基于形式的指标的相关系数通常低于0.3。这表明基于内容的指标能够更准确地反映句子集的多样性。

🎯 应用场景

该研究成果可应用于常识生成、对话系统、文本摘要等领域,提升生成内容的多样性和质量。通过选择合适的评估指标,可以更有效地训练和评估生成模型,使其能够产生更丰富、更全面的回复,从而改善用户体验,并促进人机交互的自然性。

📄 摘要(原文)

In commonsense generation, given a set of input concepts, a model must generate a response that is not only commonsense bearing, but also capturing multiple diverse viewpoints. Numerous evaluation metrics based on form- and content-level overlap have been proposed in prior work for evaluating the diversity of a commonsense generation model. However, it remains unclear as to which metrics are best suited for evaluating the diversity in commonsense generation. To address this gap, we conduct a systematic meta-evaluation of diversity metrics for commonsense generation. We find that form-based diversity metrics tend to consistently overestimate the diversity in sentence sets, where even randomly generated sentences are assigned overly high diversity scores. We then use an Large Language Model (LLM) to create a novel dataset annotated for the diversity of sentences generated for a commonsense generation task, and use it to conduct a meta-evaluation of the existing diversity evaluation metrics. Our experimental results show that content-based diversity evaluation metrics consistently outperform the form-based counterparts, showing high correlations with the LLM-based ratings. We recommend that future work on commonsense generation should use content-based metrics for evaluating the diversity of their outputs.