The Geometry of Creative Variability: How Credal Sets Expose Calibration Gaps in Language Models
作者: Esteban Garces Arias, Julian Rodemann, Christian Heumann
分类: cs.CL
发布日期: 2025-09-27
备注: Accepted at the 2nd UncertaiNLP Workshop @ EMNLP 2025
💡 一句话要点
利用Credal集揭示语言模型在创造性任务中的校准差距
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语言模型 创造性文本生成 不确定性量化 Credal集 人机协同创作
📋 核心要点
- 现有语言模型在创造性任务中难以准确捕捉人类创造性变化带来的不确定性。
- 论文提出使用Credal集构建几何框架,量化并分解神经文本生成中的不确定性,并与人类创造性变化进行校准。
- 实验表明,现有模型在捕捉人类创造性变化方面存在差距,解码策略选择对认知不确定性影响显著。
📝 摘要(中文)
理解大型语言模型的不确定性仍然是一个根本性的挑战,尤其是在存在多个有效输出的创造性任务中。本文提出了一个几何框架,使用credal集(概率分布的凸包)来量化和分解神经文本生成中的不确定性,并根据人类的创造性变化进行校准。通过分析来自WritingPrompts数据集的500个创意写作提示,每个提示有10个独特的人类续写,我们评估了四种语言模型在五种解码策略下的表现,生成了100,000个故事。我们的credal集分析揭示了在捕捉人类创造性变化方面存在显著差距,最佳的模型-人类校准度仅达到0.434(Gemma-2B,温度0.7)。我们将总不确定性分解为认知不确定性和偶然不确定性,发现解码策略的选择贡献了总认知不确定性的39.4%到72.0%。模型规模与校准质量的相关性较弱,并且基础模型和指令调优模型在校准质量上没有显著差异。我们的几何框架为改进人机协同创作的生成系统提供了可操作的见解。我们发布了完整的实验框架。
🔬 方法详解
问题定义:现有大型语言模型在创造性文本生成任务中,难以准确捕捉人类创作的多样性和不确定性。传统的概率分布无法充分表达这种多样性,导致模型输出与人类创作存在偏差。现有方法缺乏有效量化和分解这种不确定性的手段,难以指导模型改进。
核心思路:论文的核心思路是利用Credal集(概率分布的凸包)来表示模型输出的不确定性。Credal集能够捕捉模型输出的多种可能性,更全面地反映人类创作的多样性。通过分析Credal集的几何性质,可以量化和分解不确定性,并评估模型与人类创作之间的校准程度。这种方法能够更准确地评估模型在创造性任务中的表现。
技术框架:该研究的技术框架主要包含以下几个步骤:1) 数据收集:从WritingPrompts数据集中选取500个创意写作提示,并收集每个人类提示的10个续写。2) 模型生成:使用四种语言模型(具体模型名称未知)和五种解码策略生成100,000个故事。3) Credal集构建:对于每个提示,根据模型生成的多个输出构建Credal集。4) 不确定性分解:将总不确定性分解为认知不确定性和偶然不确定性。5) 校准评估:评估模型生成的Credal集与人类创作之间的校准程度。
关键创新:该研究的关键创新在于将Credal集引入到语言模型的创造性文本生成任务中,用于量化和分解不确定性。与传统的概率分布相比,Credal集能够更全面地捕捉模型输出的多样性,更准确地评估模型与人类创作之间的校准程度。此外,该研究还提出了一个几何框架,用于分析Credal集的性质,并将其应用于评估不同模型和解码策略的表现。
关键设计:Credal集由模型在不同解码策略下的输出概率分布构成,通过计算这些概率分布的凸包来表示模型的不确定性。研究中使用了多种解码策略,例如温度采样等,以探索模型输出的多样性。校准评估指标的具体计算方法未知,但其目标是衡量模型生成的Credal集与人类创作之间的重叠程度。不确定性的分解方法也未知,但其目的是区分由于模型知识不足导致的认知不确定性和由于任务本身固有的随机性导致的偶然不确定性。
📊 实验亮点
实验结果表明,现有语言模型在捕捉人类创造性变化方面存在显著差距,最佳的模型-人类校准度仅为0.434(Gemma-2B,温度0.7)。解码策略的选择对认知不确定性的影响显著,贡献了总认知不确定性的39.4%到72.0%。模型规模与校准质量的相关性较弱,基础模型和指令调优模型在校准质量上没有显著差异。
🎯 应用场景
该研究成果可应用于提升人机协同创作系统的性能,例如辅助写作、故事生成等。通过量化和分解模型的不确定性,可以更好地理解模型的优势和不足,从而指导模型改进,提高生成文本的质量和多样性。此外,该研究还可以用于评估不同语言模型在创造性任务中的表现,为模型选择提供参考。
📄 摘要(原文)
Understanding uncertainty in large language models remains a fundamental challenge, particularly in creative tasks where multiple valid outputs exist. We present a geometric framework using credal sets - convex hulls of probability distributions - to quantify and decompose uncertainty in neural text generation, calibrated against human creative variation. Analyzing 500 creative writing prompts from the WritingPrompts dataset with 10 unique human continuations each, we evaluate four language models across five decoding strategies, generating 100,000 stories. Our credal set analysis reveals substantial gaps in capturing human creative variation, with the best model-human calibration reaching only 0.434 (Gemma-2B with temperature 0.7). We decompose total uncertainty into epistemic and aleatoric components, finding that the choice of decoding strategy contributes 39.4% to 72.0% of total epistemic uncertainty. Model scale shows weak correlation with calibration quality and no significant difference exists between base and instruction-tuned models in calibration quality. Our geometric framework provides actionable insights for improving generation systems for human-AI creative alignment. We release our complete experimental framework.