Beyond Precision: Importance-Aware Recall for Factuality Evaluation in Long-Form LLM Generation
作者: Nazanin Jafari, James Allan, Mohit Iyyer
分类: cs.CL
发布日期: 2026-04-06
💡 一句话要点
提出重要性感知召回指标,用于评估长文本生成的事实性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长文本生成 事实性评估 精确率 召回率 重要性感知 知识库 大型语言模型
📋 核心要点
- 现有长文本生成事实性评估侧重精确性,忽略了召回率,导致评估不完整。
- 提出联合衡量精确性和召回率的框架,利用外部知识构建参考事实并评估生成文本的覆盖度。
- 引入重要性感知加权,区分事实的相关性和显著性,更准确地评估事实性。
📝 摘要(中文)
评估大型语言模型(LLM)生成长文本的事实性仍然具有挑战性,尤其是在回复是开放式的并且包含许多细粒度的事实陈述时。现有的评估方法主要关注精确性:它们将回复分解为原子声明,并针对外部知识源(如维基百科)验证每个声明。然而,这忽略了事实性的一个同样重要的维度:召回率,即生成的回复是否涵盖了应该包含的相关事实。我们提出了一个综合的事实性评估框架,该框架共同衡量精确性和召回率。我们的方法利用外部知识源来构建参考事实,并确定它们是否包含在生成的文本中。我们进一步引入了一种基于相关性和显著性的重要性感知加权方案。我们的分析表明,当前的LLM在精确性方面表现明显优于召回率,这表明事实不完整仍然是长文本生成的一个主要限制,并且模型通常更擅长覆盖高度重要的事实,而不是覆盖所有相关事实。
🔬 方法详解
问题定义:论文旨在解决长文本生成中事实性评估不完整的问题。现有方法主要关注生成文本的精确性,即生成的事实是否正确,而忽略了召回率,即是否覆盖了所有应该包含的相关事实。这种片面的评估方式无法全面反映生成文本的事实性质量,尤其是在开放域长文本生成中,遗漏重要事实会严重影响用户体验。
核心思路:论文的核心思路是同时评估生成文本的精确性和召回率,构建一个更全面的事实性评估框架。通过引入外部知识源构建参考事实集合,然后评估生成文本对这些参考事实的覆盖程度,从而衡量召回率。此外,论文还考虑到不同事实的重要性不同,引入了重要性感知加权,对更重要的事实赋予更高的权重。
技术框架:该框架主要包含以下几个模块: 1. 参考事实构建:利用外部知识源(如维基百科)构建与输入相关的参考事实集合。 2. 事实覆盖评估:评估生成文本是否覆盖了参考事实集合中的每个事实。 3. 重要性感知加权:根据事实的相关性和显著性,对每个事实进行加权。 4. 精确率和召回率计算:综合考虑精确率和召回率,计算最终的事实性评估指标。
关键创新:该论文最重要的技术创新点在于引入了召回率的概念,并将其与精确率相结合,构建了一个更全面的事实性评估框架。此外,重要性感知加权也是一个重要的创新点,它能够更准确地反映不同事实对整体事实性的贡献。与现有方法相比,该方法能够更全面、更准确地评估长文本生成的事实性。
关键设计:论文的关键设计包括: 1. 参考事实构建方法:如何有效地从外部知识源中提取与输入相关的参考事实。 2. 事实覆盖评估方法:如何判断生成文本是否覆盖了参考事实,可以使用文本相似度计算、信息抽取等技术。 3. 重要性感知加权策略:如何定义事实的相关性和显著性,并根据这些指标对事实进行加权。具体加权函数未知,论文中可能涉及相关公式或模型。
🖼️ 关键图片
📊 实验亮点
实验结果表明,当前LLM在精确性方面表现较好,但在召回率方面表现较差,表明事实不完整是长文本生成的一个主要限制。此外,模型更擅长覆盖高度重要的事实,但对所有相关事实的覆盖能力仍有待提高。具体性能数据和对比基线未知。
🎯 应用场景
该研究成果可应用于各种长文本生成任务的事实性评估,例如新闻报道生成、摘要生成、对话生成等。通过更全面地评估生成文本的事实性,可以提高生成文本的质量和可靠性,减少虚假信息的传播。该研究还有助于推动LLM在需要高度事实准确性的领域的应用,例如医疗、金融等。
📄 摘要(原文)
Evaluating the factuality of long-form output generated by large language models (LLMs) remains challenging, particularly when responses are open-ended and contain many fine-grained factual statements. Existing evaluation methods primarily focus on precision: they decompose a response into atomic claims and verify each claim against external knowledge sources such as Wikipedia. However, this overlooks an equally important dimension of factuality: recall, whether the generated response covers the relevant facts that should be included. We propose a comprehensive factuality evaluation framework that jointly measures precision and recall. Our method leverages external knowledge sources to construct reference facts and determine whether they are captured in generated text. We further introduce an importance-aware weighting scheme based on relevance and salience. Our analysis reveals that current LLMs perform substantially better on precision than on recall, suggesting that factual incompleteness remains a major limitation of long-form generation and that models are generally better at covering highly important facts than the full set of relevant facts.