AGSC: Adaptive Granularity and Semantic Clustering for Uncertainty Quantification in Long-text Generation
作者: Guanran Luo, Wentao Qiu, Wanru Zhao, Wenhan Lv, Zhongquan Jian, Meihong Wang, Qingqiang Wu
分类: cs.CL
发布日期: 2026-04-08
💡 一句话要点
提出AGSC框架,通过自适应粒度和语义聚类提升长文本生成中不确定性量化的准确性和效率。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长文本生成 不确定性量化 自然语言推理 语义聚类 高斯混合模型 幻觉问题 自适应粒度
📋 核心要点
- 现有长文本生成的不确定性量化方法难以在异构主题上进行可靠聚合,且忽略中性信息,计算成本高昂。
- AGSC框架利用NLI中性概率区分不相关信息,并使用GMM软聚类建模语义主题,实现主题感知的权重分配。
- 实验结果表明,AGSC在保持与事实性相关性的同时,推理时间相比完全原子分解降低了约60%。
📝 摘要(中文)
大型语言模型(LLMs)在长文本生成方面表现出令人印象深刻的能力,但幻觉问题阻碍了其应用。不确定性量化(UQ)对于评估可靠性至关重要,但复杂结构使得跨异构主题的可靠聚合变得困难。此外,现有方法通常忽略中性信息的细微差别,并且原子分解的高计算成本。为了解决这些挑战,我们提出了AGSC(自适应粒度和基于GMM的语义聚类),这是一个为长文本生成量身定制的UQ框架。AGSC首先使用NLI中性概率作为触发器来区分不相关性与不确定性,从而减少不必要的计算。然后,它应用高斯混合模型(GMM)软聚类来建模潜在的语义主题,并为下游聚合分配主题感知权重。在BIO和LongFact上的实验表明,与完全原子分解相比,AGSC在与事实性相关的同时,将推理时间减少了约60%。
🔬 方法详解
问题定义:长文本生成中,大型语言模型容易产生幻觉,导致生成内容与事实不符。不确定性量化旨在评估生成内容的可靠性,但现有方法在处理长文本时面临挑战:一是长文本包含多个主题,简单聚合不同主题的不确定性得分不准确;二是现有方法通常将所有信息都视为需要量化的对象,忽略了中性信息,导致计算冗余。
核心思路:AGSC的核心思路是自适应地确定需要量化的文本粒度,并利用语义聚类对不同主题的不确定性进行加权聚合。通过NLI模型识别中性信息,避免不必要的计算;通过GMM对文本进行语义聚类,将相似主题的信息归为一类,并根据主题的重要性进行加权。
技术框架:AGSC框架主要包含两个阶段:1) 自适应粒度确定:利用自然语言推理(NLI)模型,将生成文本与相关知识进行推理,得到中性概率。如果中性概率超过阈值,则认为该部分信息不相关,无需进行不确定性量化。2) 基于GMM的语义聚类:使用GMM对文本进行软聚类,将文本划分为不同的语义主题。然后,根据每个主题的重要性,为下游的不确定性聚合分配主题感知的权重。
关键创新:AGSC的关键创新在于:1) 提出了一种基于NLI中性概率的自适应粒度确定方法,可以有效区分不相关信息和不确定信息,减少计算量。2) 提出了一种基于GMM的语义聚类方法,可以对长文本进行主题建模,并根据主题的重要性进行加权聚合,提高不确定性量化的准确性。
关键设计:NLI模型使用预训练的RoBERTa模型进行微调,用于判断生成文本与知识之间的关系(蕴含、矛盾、中性)。GMM的聚类数量通过实验确定。主题权重根据每个主题包含的文本片段数量进行归一化。
📊 实验亮点
在BIO和LongFact数据集上的实验表明,AGSC框架在与事实性相关的同时,推理时间相比完全原子分解降低了约60%。这表明AGSC能够在保证准确性的前提下,显著提高不确定性量化的效率。实验结果验证了AGSC框架的有效性和实用性。
🎯 应用场景
AGSC框架可应用于各种长文本生成任务,例如新闻报道生成、故事创作、科技文档撰写等。通过提供可靠的不确定性量化,AGSC可以帮助用户评估生成内容的质量,并减少幻觉问题带来的风险。该研究对于提升LLM在实际应用中的可靠性和安全性具有重要意义。
📄 摘要(原文)
Large Language Models (LLMs) have demonstrated impressive capabilities in long-form generation, yet their application is hindered by the hallucination problem. While Uncertainty Quantification (UQ) is essential for assessing reliability, the complex structure makes reliable aggregation across heterogeneous themes difficult, in addition, existing methods often overlook the nuance of neutral information and suffer from the high computational cost of fine-grained decomposition. To address these challenges, we propose AGSC (Adaptive Granularity and GMM-based Semantic Clustering), a UQ framework tailored for long-form generation. AGSC first uses NLI neutral probabilities as triggers to distinguish irrelevance from uncertainty, reducing unnecessary computation. It then applies Gaussian Mixture Model (GMM) soft clustering to model latent semantic themes and assign topic-aware weights for downstream aggregation. Experiments on BIO and LongFact show that AGSC achieves state-of-the-art correlation with factuality while reducing inference time by about 60% compared to full atomic decomposition.