Faithful Summarisation under Disagreement via Belief-Level Aggregation

📄 arXiv: 2601.04889v1 📥 PDF

作者: Favour Yahdii Aghaebe, Tanefa Apekey, Elizabeth Williams, Nafise Sadat Moosavi

分类: cs.CL

发布日期: 2026-01-08


💡 一句话要点

提出基于信念层聚合的摘要生成方法,解决意见冲突场景下的信息失真问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 摘要生成 意见冲突 信念聚合 大型语言模型 信息抽取

📋 核心要点

  1. 现有摘要方法在处理意见冲突时,倾向于平滑异议,导致摘要失真,无法准确反映不同观点。
  2. 论文提出将信念层聚合与语言生成分离,先聚合文档的结构化信念,再用LLM生成摘要。
  3. 实验表明,该方法在不同模型架构和规模下,均能稳定生成感知冲突且流畅的摘要。

📝 摘要(中文)

在意见型和多文档摘要生成中,常常存在真实存在的观点冲突。然而,许多现有方法,特别是基于大型语言模型(LLM)的系统,隐式地平滑了这种冲突,并过度代表了多数意见,从而限制了生成摘要在意见密集型场景中的忠实性。本文提出了一种感知冲突的摘要生成流程,将信念层聚合与语言生成分离。首先,文档被表示为结构化的信念集,并使用基于距离的信念合并算子进行聚合,从而显式地建模冲突。然后,仅使用大型语言模型将聚合后的信念实现为自然语言摘要。我们在多个模型家族和规模上评估了该方法,并将其与在生成过程中执行显式聚合的方法进行了比较。结果表明,虽然足够大的模型可以在生成时处理聚合的情况下匹配信念层聚合,但这种行为在不同的架构或容量中并不稳定。相比之下,信念层聚合与简单的提示相结合,可以在各种模型中产生一致的、强大的、感知冲突的性能,同时保持流畅和有根据的摘要。

🔬 方法详解

问题定义:现有基于LLM的摘要生成方法在处理包含冲突意见的文档时,往往会倾向于多数意见,忽略少数意见,导致生成的摘要不够忠实,无法准确反映文档中存在的不同观点。现有方法在生成过程中进行聚合,容易受到模型大小和架构的影响,稳定性较差。

核心思路:论文的核心思路是将摘要生成过程分解为两个阶段:信念层聚合和语言生成。首先,将文档表示为结构化的信念集,然后使用专门设计的信念合并算子来聚合这些信念,从而显式地建模和处理冲突。最后,使用LLM将聚合后的信念转化为自然语言摘要。这种分离的设计使得冲突处理更加明确和可控,避免了LLM在生成过程中对冲突的隐式平滑。

技术框架:该方法包含两个主要阶段:1) 信念提取与表示:将输入文档解析为结构化的信念集,每个信念代表一个特定的观点或主张。2) 信念聚合:使用基于距离的信念合并算子,例如Kemeny-Young方法,将多个文档的信念集聚合成一个统一的信念集,该信念集能够反映文档中存在的不同观点及其冲突程度。3) 摘要生成:使用LLM,根据聚合后的信念集生成自然语言摘要。LLM仅负责将信念转化为流畅的语言,而冲突处理已经在信念聚合阶段完成。

关键创新:该方法最重要的创新点在于将信念层聚合与语言生成分离。通过显式地建模和处理冲突,避免了LLM在生成过程中对冲突的隐式平滑,从而提高了生成摘要的忠实性。此外,该方法还引入了基于距离的信念合并算子,能够有效地聚合不同文档的信念,并反映其冲突程度。

关键设计:信念提取阶段,可以使用现有的信息抽取技术或知识图谱构建方法。信念聚合阶段,可以选择不同的信念合并算子,例如Kemeny-Young方法或Lexi-graphical方法,具体选择取决于应用场景和对冲突处理的偏好。摘要生成阶段,可以使用不同的LLM,并采用合适的prompting策略,以确保生成的摘要流畅且忠实于聚合后的信念。

📊 实验亮点

实验结果表明,该方法在多个模型家族和规模上均表现出一致的、强大的、感知冲突的性能。与直接使用LLM进行摘要生成的方法相比,该方法能够更好地处理意见冲突,生成更忠实的摘要。即使使用简单的prompting策略,也能取得显著的性能提升。结果表明,足够大的模型在生成时处理聚合的情况下可以匹配信念层聚合,但这种行为在不同的架构或容量中并不稳定。

🎯 应用场景

该研究成果可应用于新闻摘要、产品评论摘要、政治观点摘要等领域,尤其适用于需要准确反映不同意见和观点的场景。通过提高摘要的忠实性,帮助用户更全面地了解信息,避免被单一观点误导。未来可应用于舆情分析、决策支持等领域,具有重要的实际价值。

📄 摘要(原文)

Opinion and multi-document summarisation often involve genuinely conflicting viewpoints, yet many existing approaches, particularly LLM-based systems, implicitly smooth disagreement and over-represent majority opinions. This limits the faithfulness of generated summaries in opinion-heavy settings. We introduce a disagreement-aware synthesis pipeline that separates belief-level aggregation from language generation. Documents are first represented as structured belief sets and aggregated using distance-based belief merging operators that explicitly model conflict. Large language models are then used only to realise the aggregated beliefs as natural language summaries. We evaluate the approach across multiple model families and scales, comparing it to methods that perform explicit aggregation during generation. Our results show that while sufficiently large models can match belief-level aggregation when aggregation is handled at generation time, this behaviour is not stable across architectures or capacities. In contrast, belief-level aggregation combined with simple prompting yields consistently strong disagreement-aware performance across models, while maintaining fluent and grounded summaries.