CoKe: Customizable Fine-Grained Story Evaluation via Chain-of-Keyword Rationalization

作者: Brihi Joshi, Sriram Venkatapathy, Mohit Bansal, Nanyun Peng, Haw-Shiuan Chang

分类: cs.CL

发布日期: 2025-03-21

💡 一句话要点

提出CoKe：通过关键词链推理实现可定制的细粒度故事评估

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 故事评估 关键词链 思维链 自洽性 语言模型 文本生成 细粒度评估

📋 核心要点

现有自洽性推理方法在故事评估中，因生成流畅解释与预测准确评分的目标不匹配，导致效果不佳。
CoKe方法通过先生成关键词链，再生成自由文本理由，引导评估模型进行更准确的评分预测。
实验表明，CoKe在StoryER数据集上超越GPT-4，与人类标注者的相关性提升2倍，且参数量更少。

📝 摘要（中文）

使用语言模型评估人类创作的故事一直面临挑战，这归因于多标注者评分的主观性。为了模拟人类的思考过程，思维链（CoT）生成自由文本解释来指导模型的预测，而自洽性（SC）则对多个生成的解释进行预测的边缘化。本研究发现，广泛使用的自洽性推理方法由于生成“流畅”的解释与实际产生良好的故事方面评分预测之间的目标不匹配，导致次优结果。为了克服这一挑战，我们提出了关键词链（CoKe），它在生成自由文本理由之前生成一系列关键词，以指导评估语言模型的评分预测。然后，我们生成各种各样的此类关键词，并聚合与这些生成相对应的分数。在StoryER数据集上，基于我们的小型微调评估模型的CoKe不仅达到了人类水平的性能，并且显著优于GPT-4，与人类标注者的相关性提高了2倍，而且需要的参数数量也大大减少。

🔬 方法详解

问题定义：论文旨在解决使用语言模型评估故事时，由于人类主观性导致评估结果不一致的问题。现有方法，如思维链（CoT）和自洽性（SC），在生成解释时，目标是生成“流畅”的文本，而非直接优化评分预测的准确性，导致评估结果与人类判断存在偏差。现有方法难以在生成解释和准确预测评分之间找到平衡。

核心思路：CoKe的核心思路是通过引入关键词链作为桥梁，将生成解释的过程与评分预测的目标对齐。具体来说，CoKe首先生成一系列关键词，这些关键词能够概括故事的关键信息，然后利用这些关键词生成自由文本解释，并最终进行评分预测。通过这种方式，CoKe能够引导模型关注与评分相关的关键信息，从而提高评估的准确性。

技术框架：CoKe的整体框架包含以下几个主要步骤： 1. 关键词生成：使用一个语言模型生成一系列关键词，这些关键词能够概括故事的关键信息。 2. 理由生成：使用生成的关键词作为提示，生成自由文本解释。 3. 评分预测：使用生成的自由文本解释，预测故事的评分。 4. 分数聚合：生成多个关键词序列，并聚合对应的分数，得到最终的评估结果。

关键创新：CoKe的关键创新在于引入了关键词链作为推理的中间步骤。与直接生成自由文本解释的方法相比，CoKe能够更好地引导模型关注与评分相关的关键信息，从而提高评估的准确性。此外，CoKe还通过生成多个关键词序列并聚合对应的分数，进一步提高了评估的鲁棒性。

关键设计：CoKe的关键设计包括： 1. 关键词生成模型：可以使用各种语言模型，例如GPT-2或T5，进行微调以生成关键词。 2. 理由生成模型：可以使用与关键词生成模型相同的模型，或者使用不同的模型。 3. 评分预测模型：可以使用一个简单的分类器或回归模型，根据自由文本解释预测评分。 4. 关键词数量和序列长度：需要根据具体任务进行调整，以平衡评估的准确性和效率。

🖼️ 关键图片

📊 实验亮点

实验结果表明，CoKe在StoryER数据集上达到了人类水平的性能，并且显著优于GPT-4，与人类标注者的相关性提高了2倍。更重要的是，CoKe在取得更好性能的同时，所需的参数数量也大大减少，这表明CoKe是一种更高效的评估方法。这些结果验证了CoKe方法的有效性和优越性。

🎯 应用场景

CoKe方法可应用于各种创意文本的自动评估，例如故事、诗歌和剧本等。该方法能够提供更细粒度、更准确的评估结果，有助于提高文本质量、辅助内容创作，并为自动化内容审核提供技术支持。未来，CoKe还可扩展到其他领域，例如代码生成和设计评估。

📄 摘要（原文）

Evaluating creative text such as human-written stories using language models has always been a challenging task -- owing to the subjectivity of multi-annotator ratings. To mimic the thinking process of humans, chain of thought (CoT) generates free-text explanations that help guide a model's predictions and Self-Consistency (SC) marginalizes predictions over multiple generated explanations. In this study, we discover that the widely-used self-consistency reasoning methods cause suboptimal results due to an objective mismatch between generating 'fluent-looking' explanations vs. actually leading to a good rating prediction for an aspect of a story. To overcome this challenge, we propose $\textbf{C}$hain-$\textbf{o}$f-$\textbf{Ke}$ywords (CoKe), that generates a sequence of keywords $\textit{before}$ generating a free-text rationale, that guide the rating prediction of our evaluation language model. Then, we generate a diverse set of such keywords, and aggregate the scores corresponding to these generations. On the StoryER dataset, CoKe based on our small fine-tuned evaluation models not only reach human-level performance and significantly outperform GPT-4 with a 2x boost in correlation with human annotators, but also requires drastically less number of parameters.

CoKe: Customizable Fine-Grained Story Evaluation via Chain-of-Keyword Rationalization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理