DiSCo: Making Absence Visible in Intelligent Summarization Interfaces

📄 arXiv: 2601.07229v1 📥 PDF

作者: Eran Fainman, Hagit Ben Shoshan, Adir Solomon, Osnat Mokryn

分类: cs.HC, cs.AI, cs.IR

发布日期: 2026-01-12


💡 一句话要点

DiSCo通过对比领域知识,使智能摘要界面中信息的缺失变得可见。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 智能摘要 自然语言处理 领域知识 存在偏差 对比学习

📋 核心要点

  1. 现有智能摘要系统倾向于强调已提及的信息,忽略缺失信息,导致用户决策偏差。
  2. DiSCo通过对比领域知识,识别并突出显示摘要中异常强调或缺失的方面。
  3. 用户研究表明,DiSCo摘要在详细程度和决策支持方面优于基线模型,但可读性略有下降。

📝 摘要(中文)

智能界面越来越多地使用大型语言模型来总结用户生成的内容,但这些摘要强调了已提及的信息,而忽略了缺失的信息。这种“存在偏差”可能会误导依赖摘要做出决策的用户。我们提出了一种基于期望的计算方法——通过对比的领域信息摘要(DiSCo),通过将每个实体的内容与领域主题期望进行比较,从而使缺失的信息变得可见。领域主题期望体现在可比较的住宿的参考分布中,这些分布捕获了通常讨论的方面。这种比较识别出相对于领域规范而言,被异常强调或缺失的方面,并将它们整合到生成的文本中。在滑雪、海滩和市中心这三个住宿领域的用户研究中,DiSCo摘要被评为比基线大型语言模型摘要更详细,更有助于决策,但可读性略有下降。研究结果表明,建模期望可以减少存在偏差,并提高智能摘要界面的透明度和决策支持。

🔬 方法详解

问题定义:现有智能摘要方法存在“存在偏差”,即过度关注已提及的信息,而忽略未提及的信息。这会导致用户在依赖摘要进行决策时,无法全面了解情况,从而做出次优决策。现有方法缺乏对领域知识的有效利用,无法判断哪些信息是“应该”被提及但实际上缺失的。

核心思路:DiSCo的核心思路是通过对比领域知识,显式地揭示摘要中信息的缺失。具体来说,它首先构建领域主题的期望分布,然后将每个实体的内容与该分布进行比较,从而识别出被异常强调或缺失的方面。通过将这些缺失信息整合到摘要中,DiSCo旨在减少存在偏差,提高摘要的透明度和决策支持能力。

技术框架:DiSCo的技术框架主要包括以下几个阶段:1) 领域知识建模:构建领域主题的参考分布,该分布捕获了在可比较的住宿中通常讨论的方面。这可以通过分析大量相关文本数据来实现。2) 内容分析:分析待摘要的实体内容,提取关键信息和主题。3) 对比分析:将实体内容与领域主题的参考分布进行比较,识别出被异常强调或缺失的方面。4) 摘要生成:将识别出的缺失信息整合到摘要中,生成更全面、更透明的摘要。

关键创新:DiSCo最重要的技术创新点在于其基于期望的对比分析方法。与传统的摘要方法不同,DiSCo不仅关注已提及的信息,还关注未提及的信息,并通过对比领域知识来判断哪些信息是重要的、应该被提及的。这种方法能够有效地减少存在偏差,提高摘要的质量。

关键设计:领域知识建模阶段,可以使用主题模型(如LDA)或预训练语言模型来构建领域主题的参考分布。对比分析阶段,可以使用KL散度等指标来衡量实体内容与参考分布之间的差异。摘要生成阶段,可以使用模板或生成式模型来将缺失信息整合到摘要中。具体的参数设置、损失函数和网络结构等技术细节取决于具体的实现方式。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

用户研究表明,在滑雪、海滩和市中心三个住宿领域,DiSCo生成的摘要在详细程度和决策支持方面显著优于基线大型语言模型摘要。具体来说,用户认为DiSCo摘要提供了更多有用的信息,能够帮助他们更好地了解住宿的特点和优缺点。虽然DiSCo摘要的可读性略有下降,但用户普遍认为其提供的额外信息价值超过了可读性上的损失。

🎯 应用场景

DiSCo可应用于各种智能摘要界面,例如旅游住宿推荐、产品评论总结、新闻报道摘要等。通过减少存在偏差,DiSCo可以帮助用户更全面地了解情况,做出更明智的决策。该研究对于提高智能系统的透明度、可信度和用户满意度具有重要意义,并有望在未来得到广泛应用。

📄 摘要(原文)

Intelligent interfaces increasingly use large language models to summarize user-generated content, yet these summaries emphasize what is mentioned while overlooking what is missing. This presence bias can mislead users who rely on summaries to make decisions. We present Domain Informed Summarization through Contrast (DiSCo), an expectation-based computational approach that makes absences visible by comparing each entity's content with domain topical expectations captured in reference distributions of aspects typically discussed in comparable accommodations. This comparison identifies aspects that are either unusually emphasized or missing relative to domain norms and integrates them into the generated text. In a user study across three accommodation domains, namely ski, beach, and city center, DiSCo summaries were rated as more detailed and useful for decision making than baseline large language model summaries, although slightly harder to read. The findings show that modeling expectations reduces presence bias and improves both transparency and decision support in intelligent summarization interfaces.