The Geometry of Creative Variability: How Credal Sets Expose Calibration Gaps in Language Models

作者: Esteban Garces Arias, Julian Rodemann, Christian Heumann

分类: cs.CL

发布日期: 2025-09-27

备注: Accepted at the 2nd UncertaiNLP Workshop @ EMNLP 2025

💡 一句话要点

利用Credal集几何分析揭示语言模型在创意生成中校准差距

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 语言模型 不确定性量化 创意生成 Credal集 校准评估

📋 核心要点

大型语言模型在创意任务中存在不确定性量化难题，尤其是在存在多个有效输出的情况下。
论文提出使用credal集构建几何框架，量化并分解神经文本生成中的不确定性，并以人类创造性变化为基准进行校准。
实验表明，语言模型在捕捉人类创造性变化方面存在显著差距，解码策略选择对认知不确定性影响较大，模型规模与校准质量相关性弱。

📝 摘要（中文）

本文提出了一种几何框架，使用credal集（概率分布的凸包）来量化和分解神经文本生成中的不确定性，并根据人类的创造性变化进行校准。研究分析了来自WritingPrompts数据集的500个创意写作提示，每个提示有10个独特的人工续写，评估了四种语言模型在五种解码策略下的表现，生成了100,000个故事。credal集分析揭示了模型在捕捉人类创造性变化方面的巨大差距，最佳模型-人类校准度仅达到0.434（Gemma-2B，温度0.7）。研究将总不确定性分解为认知不确定性和偶然不确定性，发现解码策略的选择贡献了39.4%到72.0%的认知不确定性。模型规模与校准质量的相关性较弱，基础模型和指令调优模型在校准质量上没有显著差异。该几何框架为改进人机协同创意生成系统提供了可操作的见解，并开源了完整的实验框架。

🔬 方法详解

问题定义：现有大型语言模型在创意文本生成任务中，难以准确量化和校准其生成结果的不确定性。特别是在存在多种合理续写的情况下，模型难以捕捉人类的创造性变化，导致生成结果与人类预期存在偏差。现有方法缺乏有效的不确定性分解和评估框架，难以指导模型改进。

核心思路：论文的核心思路是利用credal集（概率分布的凸包）来表示模型生成结果的不确定性。Credal集能够捕捉模型输出的多种可能性，并提供一种几何视角来分析模型与人类生成结果之间的差异。通过将总不确定性分解为认知不确定性和偶然不确定性，可以深入了解模型不确定性的来源，并指导模型改进。

技术框架：整体框架包括以下几个主要步骤：1) 数据收集：从WritingPrompts数据集中选取创意写作提示，并收集人类续写作为参考。2) 模型生成：使用不同的语言模型和解码策略生成多个续写。3) Credal集构建：为每个提示和每个模型生成结果构建credal集，表示模型输出的不确定性。4) 不确定性分解：将总不确定性分解为认知不确定性和偶然不确定性。5) 校准评估：评估模型生成结果与人类续写之间的校准程度。

关键创新：该论文的关键创新在于：1) 提出了一种基于credal集的几何框架，用于量化和分解神经文本生成中的不确定性。2) 将不确定性分解为认知不确定性和偶然不确定性，从而更深入地了解模型不确定性的来源。3) 提供了一种评估模型生成结果与人类续写之间校准程度的方法。与现有方法相比，该方法能够更全面地评估模型在创意生成任务中的表现。

关键设计：论文的关键设计包括：1) 使用KL散度来衡量不同概率分布之间的距离。2) 使用Jensen-Shannon散度来衡量credal集之间的距离。3) 通过计算credal集的体积来量化不确定性。4) 通过比较模型生成结果的credal集与人类续写的credal集来评估校准程度。实验中使用了多种语言模型（包括Gemma-2B）和解码策略（如temperature sampling），并对结果进行了详细的分析。

🖼️ 关键图片

📊 实验亮点

实验结果表明，现有语言模型在捕捉人类创造性变化方面存在显著差距，最佳模型-人类校准度仅为0.434（Gemma-2B，温度0.7）。解码策略的选择对认知不确定性影响较大，贡献了39.4%到72.0%的认知不确定性。模型规模与校准质量的相关性较弱，基础模型和指令调优模型在校准质量上没有显著差异。这些发现为改进人机协同创意生成系统提供了重要依据。

🎯 应用场景

该研究成果可应用于人机协同创意写作、故事生成、对话系统等领域。通过提升语言模型在创意生成中的校准度，可以提高生成结果的质量和多样性，更好地满足用户需求。该框架还可用于评估和比较不同语言模型在创意任务中的表现，指导模型选择和优化。未来，该研究有望推动人工智能在创意领域的更广泛应用。

📄 摘要（原文）

Understanding uncertainty in large language models remains a fundamental challenge, particularly in creative tasks where multiple valid outputs exist. We present a geometric framework using credal sets - convex hulls of probability distributions - to quantify and decompose uncertainty in neural text generation, calibrated against human creative variation. Analyzing 500 creative writing prompts from the WritingPrompts dataset with 10 unique human continuations each, we evaluate four language models across five decoding strategies, generating 100,000 stories. Our credal set analysis reveals substantial gaps in capturing human creative variation, with the best model-human calibration reaching only 0.434 (Gemma-2B with temperature 0.7). We decompose total uncertainty into epistemic and aleatoric components, finding that the choice of decoding strategy contributes 39.4% to 72.0% of total epistemic uncertainty. Model scale shows weak correlation with calibration quality and no significant difference exists between base and instruction-tuned models in calibration quality. Our geometric framework provides actionable insights for improving generation systems for human-AI creative alignment. We release our complete experimental framework.

The Geometry of Creative Variability: How Credal Sets Expose Calibration Gaps in Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理