CoKe: Customizable Fine-Grained Story Evaluation via Chain-of-Keyword Rationalization
作者: Brihi Joshi, Sriram Venkatapathy, Mohit Bansal, Nanyun Peng, Haw-Shiuan Chang
分类: cs.CL
发布日期: 2025-03-21
💡 一句话要点
提出CoKe:通过关键词链推理实现可定制的细粒度故事评估
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 故事评估 关键词链 思维链 自洽性 语言模型 文本生成 细粒度评估
📋 核心要点
- 现有自洽性推理方法在故事评估中,因生成流畅解释与预测准确评分的目标不匹配,导致效果不佳。
- CoKe方法通过先生成关键词链,再生成自由文本理由,引导评估模型进行更准确的评分预测。
- 实验表明,CoKe在StoryER数据集上超越GPT-4,与人类标注者的相关性提升2倍,且参数量更少。
📝 摘要(中文)
使用语言模型评估人类创作的故事一直面临挑战,这归因于多标注者评分的主观性。为了模拟人类的思考过程,思维链(CoT)生成自由文本解释来指导模型的预测,而自洽性(SC)则对多个生成的解释进行预测的边缘化。本研究发现,广泛使用的自洽性推理方法由于生成“流畅”的解释与实际产生良好的故事方面评分预测之间的目标不匹配,导致次优结果。为了克服这一挑战,我们提出了关键词链(CoKe),它在生成自由文本理由之前生成一系列关键词,以指导评估语言模型的评分预测。然后,我们生成各种各样的此类关键词,并聚合与这些生成相对应的分数。在StoryER数据集上,基于我们的小型微调评估模型的CoKe不仅达到了人类水平的性能,并且显著优于GPT-4,与人类标注者的相关性提高了2倍,而且需要的参数数量也大大减少。
🔬 方法详解
问题定义:论文旨在解决使用语言模型评估故事时,由于人类主观性导致评估结果不一致的问题。现有方法,如思维链(CoT)和自洽性(SC),在生成解释时,目标是生成“流畅”的文本,而非直接优化评分预测的准确性,导致评估结果与人类判断存在偏差。现有方法难以在生成解释和准确预测评分之间找到平衡。
核心思路:CoKe的核心思路是通过引入关键词链作为桥梁,将生成解释的过程与评分预测的目标对齐。具体来说,CoKe首先生成一系列关键词,这些关键词能够概括故事的关键信息,然后利用这些关键词生成自由文本解释,并最终进行评分预测。通过这种方式,CoKe能够引导模型关注与评分相关的关键信息,从而提高评估的准确性。
技术框架:CoKe的整体框架包含以下几个主要步骤: 1. 关键词生成:使用一个语言模型生成一系列关键词,这些关键词能够概括故事的关键信息。 2. 理由生成:使用生成的关键词作为提示,生成自由文本解释。 3. 评分预测:使用生成的自由文本解释,预测故事的评分。 4. 分数聚合:生成多个关键词序列,并聚合对应的分数,得到最终的评估结果。
关键创新:CoKe的关键创新在于引入了关键词链作为推理的中间步骤。与直接生成自由文本解释的方法相比,CoKe能够更好地引导模型关注与评分相关的关键信息,从而提高评估的准确性。此外,CoKe还通过生成多个关键词序列并聚合对应的分数,进一步提高了评估的鲁棒性。
关键设计:CoKe的关键设计包括: 1. 关键词生成模型:可以使用各种语言模型,例如GPT-2或T5,进行微调以生成关键词。 2. 理由生成模型:可以使用与关键词生成模型相同的模型,或者使用不同的模型。 3. 评分预测模型:可以使用一个简单的分类器或回归模型,根据自由文本解释预测评分。 4. 关键词数量和序列长度:需要根据具体任务进行调整,以平衡评估的准确性和效率。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CoKe在StoryER数据集上达到了人类水平的性能,并且显著优于GPT-4,与人类标注者的相关性提高了2倍。更重要的是,CoKe在取得更好性能的同时,所需的参数数量也大大减少,这表明CoKe是一种更高效的评估方法。这些结果验证了CoKe方法的有效性和优越性。
🎯 应用场景
CoKe方法可应用于各种创意文本的自动评估,例如故事、诗歌和剧本等。该方法能够提供更细粒度、更准确的评估结果,有助于提高文本质量、辅助内容创作,并为自动化内容审核提供技术支持。未来,CoKe还可扩展到其他领域,例如代码生成和设计评估。
📄 摘要(原文)
Evaluating creative text such as human-written stories using language models has always been a challenging task -- owing to the subjectivity of multi-annotator ratings. To mimic the thinking process of humans, chain of thought (CoT) generates free-text explanations that help guide a model's predictions and Self-Consistency (SC) marginalizes predictions over multiple generated explanations. In this study, we discover that the widely-used self-consistency reasoning methods cause suboptimal results due to an objective mismatch between generating 'fluent-looking' explanations vs. actually leading to a good rating prediction for an aspect of a story. To overcome this challenge, we propose $\textbf{C}$hain-$\textbf{o}$f-$\textbf{Ke}$ywords (CoKe), that generates a sequence of keywords $\textit{before}$ generating a free-text rationale, that guide the rating prediction of our evaluation language model. Then, we generate a diverse set of such keywords, and aggregate the scores corresponding to these generations. On the StoryER dataset, CoKe based on our small fine-tuned evaluation models not only reach human-level performance and significantly outperform GPT-4 with a 2x boost in correlation with human annotators, but also requires drastically less number of parameters.