Graph-based Uncertainty Metrics for Long-form Language Model Outputs

📄 arXiv: 2410.20783v1 📥 PDF

作者: Mingjian Jiang, Yangjun Ruan, Prasanna Sattigeri, Salim Roukos, Tatsunori Hashimoto

分类: cs.CL, cs.AI, cs.LG

发布日期: 2024-10-28

备注: Accepted as a Spotlight paper at NeurIPS 2024


💡 一句话要点

提出基于图的LLM不确定性度量方法,提升长文本生成的事实性和信息量。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 不确定性估计 长文本生成 图神经网络 事实性 信息抽取 解码策略

📋 核心要点

  1. 长文本生成中,大型语言模型容易产生幻觉,缺乏有效的细粒度不确定性估计方法。
  2. 将LLM生成内容与声明间的关系建模为二分图,利用图中心性度量估计声明级别的不确定性。
  3. 实验表明,该方法在AUPRC上平均相对提升6.8%,并在事实性和信息量方面均优于现有技术。

📝 摘要(中文)

大型语言模型(LLM)在文本生成方面取得了显著进展,但仍然存在幻觉问题,并且对长文本LLM生成进行细粒度的不确定性估计仍然具有挑战性。本文提出了图不确定性,它将LLM生成内容及其中的声明之间的关系表示为一个二分图,并使用一系列图中心性度量来估计声明级别的不确定性。在这种视角下,现有的基于自洽性概念的不确定性估计方法可以被视为使用度中心性作为不确定性度量。我们证明,更复杂的替代方案(如紧密度中心性)在声明级别的不确定性估计方面提供了持续的收益。此外,我们提出了不确定性感知的解码技术,利用图结构和不确定性估计来提高LLM生成的事实性,仅保留最可靠的声明。与现有方法相比,我们的基于图的不确定性度量在各种长文本生成设置中,AUPRC平均相对提升了6.8%。我们的端到端系统在事实性方面比现有解码技术提高了2-4%,同时显著提高了生成响应的信息量。

🔬 方法详解

问题定义:现有的大型语言模型在长文本生成过程中容易产生“幻觉”,即生成不真实或与事实相悖的内容。现有的不确定性估计方法,例如基于自洽性的方法,在长文本生成场景下,无法提供细粒度的、声明级别的不确定性度量,难以有效指导解码过程,从而影响生成文本的事实性。

核心思路:论文的核心思路是将LLM的生成结果及其包含的各个声明之间的关系建模成一个二分图。图中一侧节点代表不同的生成结果,另一侧节点代表各个声明。如果一个生成结果包含某个声明,则两个节点之间存在一条边。通过分析这个图的结构,可以推断出每个声明的不确定性。如果一个声明出现在多个生成结果中,则认为该声明更可靠,反之则认为不确定性较高。

技术框架:该方法包含以下几个主要步骤:1. 使用LLM生成多个候选文本;2. 从每个候选文本中提取声明;3. 构建二分图,节点为候选文本和声明,边表示包含关系;4. 计算每个声明的图中心性度量(例如度中心性、紧密度中心性等),作为该声明的不确定性估计;5. 使用不确定性估计指导解码过程,例如只保留不确定性低的声明,或者对不同声明进行加权。

关键创新:该方法最重要的创新在于将不确定性估计问题转化为图分析问题。通过引入图结构,可以更全面地考虑不同生成结果之间的关系,从而更准确地估计声明级别的不确定性。此外,论文还探索了不同的图中心性度量,发现更复杂的中心性度量(如紧密度中心性)比简单的度中心性更有效。

关键设计:论文的关键设计包括:1. 如何从长文本中提取声明,可以使用现有的信息抽取技术;2. 如何选择合适的图中心性度量,论文实验比较了度中心性、紧密度中心性等多种度量;3. 如何利用不确定性估计指导解码过程,例如可以使用阈值过滤不确定性高的声明,或者使用不确定性作为权重对不同声明进行排序。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于图的不确定性度量方法在长文本生成任务中取得了显著的性能提升。具体来说,该方法在AUPRC指标上平均相对提升了6.8%,并且在事实性方面比现有解码技术提高了2-4%,同时显著提高了生成响应的信息量。这些结果表明,该方法能够有效提高长文本生成的事实性和可靠性。

🎯 应用场景

该研究成果可应用于各种需要生成长文本的场景,例如自动报告生成、新闻摘要、对话系统等。通过提高生成文本的事实性和信息量,可以增强用户对LLM的信任,并减少错误信息的传播。未来,该方法可以进一步扩展到其他模态的数据,例如图像和视频。

📄 摘要(原文)

Recent advancements in Large Language Models (LLMs) have significantly improved text generation capabilities, but these systems are still known to hallucinate, and granular uncertainty estimation for long-form LLM generations remains challenging. In this work, we propose Graph Uncertainty -- which represents the relationship between LLM generations and claims within them as a bipartite graph and estimates the claim-level uncertainty with a family of graph centrality metrics. Under this view, existing uncertainty estimation methods based on the concept of self-consistency can be viewed as using degree centrality as an uncertainty measure, and we show that more sophisticated alternatives such as closeness centrality provide consistent gains at claim-level uncertainty estimation. Moreover, we present uncertainty-aware decoding techniques that leverage both the graph structure and uncertainty estimates to improve the factuality of LLM generations by preserving only the most reliable claims. Compared to existing methods, our graph-based uncertainty metrics lead to an average of 6.8% relative gains on AUPRC across various long-form generation settings, and our end-to-end system provides consistent 2-4% gains in factuality over existing decoding techniques while significantly improving the informativeness of generated responses.