QUIET: A Multi-Blank Cascaded Story Cloze Benchmark for LLM Creative Generation Capability
作者: Bo Zou, Chao Xu
分类: cs.CL, cs.AI, cs.LG
发布日期: 2026-05-25
💡 一句话要点
QUIET:多空级联故事完形填空基准,用于评估LLM的创造性生成能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 创造性生成 故事完形填空 自动评估 信息论 基准测试 内容约束
📋 核心要点
- 现有故事完形填空基准侧重于判别能力,缺乏对LLM创造性生成能力的直接评估。
- QUIET基准通过多空级联的故事完形填空,以及内容约束和级联依赖关系,来诊断LLM的创造性。
- QUIET采用信息论自动评分协议,基于“校准的惊喜”理论,无需人工评分,实现客观评估。
📝 摘要(中文)
大型语言模型(LLM)在创造性能力评估方面面临双重挑战:现有基准(如Story Cloze Test、HellaSwag)使用多项选择识别范式来衡量模型对叙事延续的辨别能力,而不是直接衡量创造性生成能力;基于规则的评分和LLM-as-Judge方法依赖于主观维度评估或自然语言模型输出,无法提供客观、自动的评分机制。本文提出了QUIET(Quality Understanding via Interlocked Evaluation Testing),这是一个基于多空级联故事完形填空的LLM创造性能力诊断基准。QUIET在具有完整结构的故事中设置N个空(10-20个),每个空都伴随着明确的内容约束,并且空之间存在级联依赖关系——填充到较早的空中的内容会约束后续空的合理解决方案空间。被评估的模型(或人类参与者)以开放式生成模式填充所有空;结果由信息论自动评分协议评分,无需人工评分。评分协议直接将“校准的惊喜”理论框架(Zou & Xu, 2026a)付诸实践。对于每个空k,计算一个综合分数:score = satisfy * (1 + lambda * surprise),其中lambda = 1.0。这里,“satisfy”衡量空填充满足内容约束的程度(客观逻辑推理判断,而非主观审美评分),“surprise”衡量在满足约束的条件下,答案的惊喜程度。不满足约束的创造性答案得分为零;满足约束但平庸的答案得分较低;满足约束且令人惊讶的答案得分较高。
🔬 方法详解
问题定义:现有故事完形填空测试主要评估模型在多个选项中选择正确故事结尾的判别能力,而忽略了模型自主生成故事内容、展现创造力的能力。同时,现有的评估方法依赖人工评分或LLM-as-Judge,存在主观性和自动化程度低的问题。
核心思路:QUIET的核心思路是通过设置多个相互依赖的空,并为每个空添加内容约束,来引导模型进行创造性生成。同时,采用基于信息论的自动评分方法,避免主观评价,实现对模型创造性生成能力的客观评估。这种设计鼓励模型在满足约束的前提下,生成出人意料但又合理的内容。
技术框架:QUIET基准测试包含以下几个关键组成部分:1) 具有完整结构的故事;2) 故事中设置的N个空(10-20个),每个空对应一个内容约束;3) 空之间的级联依赖关系,即前一个空的填充会影响后一个空的合理答案空间;4) 基于信息论的自动评分协议,该协议根据“校准的惊喜”理论,对模型生成的答案进行评分。
关键创新:QUIET最重要的创新在于其多空级联的设计和基于“校准的惊喜”的自动评分方法。多空级联的设计能够更全面地评估模型的创造性生成能力,而自动评分方法则避免了主观评价,提高了评估的客观性和效率。与现有方法相比,QUIET更侧重于评估模型的自主生成能力,而非判别能力。
关键设计:评分函数是QUIET的关键设计之一。评分函数score = satisfy * (1 + lambda * surprise),其中satisfy衡量答案是否满足内容约束,surprise衡量答案在满足约束的前提下的惊喜程度,lambda是一个超参数(设置为1.0)用于控制惊喜程度对总分的影响。satisfy的计算依赖于客观的逻辑推理判断,而非主观的审美评分。surprise的计算则基于信息论,例如可以使用语言模型的困惑度来衡量答案的罕见程度。
🖼️ 关键图片
📊 实验亮点
QUIET基准引入了多空级联的故事完形填空形式,并结合信息论的自动评分协议,实现了对LLM创造性生成能力的客观评估。该基准无需人工标注,即可有效区分满足约束但平庸的答案和满足约束且令人惊讶的答案,为LLM的创造性评估提供了一种新的思路。
🎯 应用场景
QUIET基准可以用于评估和比较不同LLM的创造性生成能力,帮助研究人员更好地理解LLM的创造性机制。此外,该基准还可以用于指导LLM的训练,提高其在故事生成、剧本创作等领域的应用能力。QUIET的自动评分机制也为大规模评估LLM的创造性提供了可能。
📄 摘要(原文)
Large language models (LLMs) face a dual challenge in creative capability evaluation: existing benchmarks (e.g., Story Cloze Test, HellaSwag) measure models' discriminative ability over narrative continuation using multiple-choice recognition paradigms, rather than directly measuring creative generation capability; rubric-based scoring and LLM-as-Judge methods rely on subjective dimension assessment or natural language model outputs, and cannot provide objective, automated scoring mechanisms. This paper proposes QUIET (Quality Understanding via Interlocked Evaluation Testing), a diagnostic benchmark for LLM creative capability based on multi-blank cascaded story cloze. QUIET sets N blanks (10-20) in a story with complete structure, with each blank accompanied by an explicit content constraint, and cascade dependency relationships between blanks -- the content filled into earlier blanks constrains the feasible solution space for later blanks. The evaluated model (or human participants) fills all blanks in open-ended generation mode; the results are scored by an information-theoretic automated scoring protocol without human grading. The scoring protocol directly operationalizes the "calibrated surprise" theoretical framework (Zou & Xu, 2026a). For each blank k, a composite score is computed: score = satisfy * (1 + lambda * surprise), where lambda = 1.0. Here, "satisfy" measures how well the blank filling satisfies the content constraint (objective logical reasoning judgment, not subjective aesthetic scoring), and "surprise" measures the degree of surprise given that the constraint is satisfied. Creative answers that do not satisfy the constraint score zero; answers that satisfy the constraint but are mediocre score low; answers that satisfy the constraint and are surprising score high.