Generation-Time vs. Post-hoc Citation: A Holistic Evaluation of LLM Attribution

作者: Yash Saxena, Raviteja Bommireddy, Ankur Padia, Manas Gaur

分类: cs.CL

发布日期: 2025-09-25

备注: Accepted at NeurIPS 2025 LLM Evaluation Workshop

💡 一句话要点

对比生成时和后置引用，全面评估LLM的归因能力，为高风险场景提供选择依据。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 引用生成 生成时引用 后置引用 检索增强 归因评估 高风险应用

📋 核心要点

现有LLM在生成引用时面临覆盖率和正确性之间的权衡，难以满足高风险场景的需求。
论文提出生成时引用(G-Cite)和后置引用(P-Cite)两种范式，并分析其优缺点。
实验表明检索增强是提升归因质量的关键，P-Cite在覆盖率和正确性上更具优势。

📝 摘要（中文）

为了使大型语言模型(LLM)在医疗、法律、学术和金融等高风险领域更值得信赖，必须引用可验证的来源。实践者和研究人员面临一个选择：让模型在解码过程中生成引用，或者先让模型起草答案，然后再附加适当的引用。为了明确这种选择，我们引入了两种范式：生成时引用(G-Cite)，它一次性生成答案和引用；以及后置引用(P-Cite)，它在起草后添加或验证引用。我们对四种流行的归因数据集进行了从零样本到高级检索增强方法的全面评估，并提供了基于证据的建议，权衡了各种用例中的利弊。结果表明，覆盖率和引用正确性之间存在一致的权衡，检索是两种范式中归因质量的主要驱动因素。P-Cite方法以具有竞争力的正确性和适度的延迟实现了高覆盖率，而G-Cite方法则以牺牲覆盖率和速度为代价优先考虑精度。我们建议在高风险应用中采用以检索为中心的P-Cite优先方法，而将G-Cite保留给严格的声明验证等对精度要求严格的设置。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）在生成内容时如何进行有效和可靠的引用的问题。现有的方法要么在生成内容的同时生成引用（Generation-Time Citation, G-Cite），要么在生成内容之后再添加或验证引用（Post-hoc Citation, P-Cite）。这两种方法各有优缺点，但在高风险领域，如医疗、法律等，需要仔细权衡。现有的痛点在于如何在覆盖率（引用尽可能多的相关信息）和正确性（引用准确的来源）之间取得平衡，以及如何降低延迟。

核心思路：论文的核心思路是将引用生成过程分为两个主要范式，即G-Cite和P-Cite，并对这两种范式进行全面的评估和比较。通过实验分析，找出每种范式的优势和劣势，并为不同的应用场景提供选择建议。论文强调检索增强在提高引用质量中的作用，并建议在高风险场景中优先考虑以检索为中心的P-Cite方法。

技术框架：论文的技术框架主要包括以下几个部分： 1. 数据准备：使用四个流行的归因数据集进行实验。 2. 模型选择：选择不同的LLM模型，并结合零样本学习和检索增强技术。 3. 范式实现：分别实现G-Cite和P-Cite两种引用生成范式。 4. 评估指标：使用覆盖率、正确性和延迟等指标对不同方法进行评估。 5. 实验分析：对实验结果进行深入分析，找出不同方法在不同场景下的优劣。

关键创新：论文的关键创新在于： 1. 两种引用范式的明确划分：明确定义了G-Cite和P-Cite两种引用生成范式，为后续研究提供了清晰的框架。 2. 全面的评估和比较：对两种范式进行了全面的评估和比较，揭示了它们在覆盖率、正确性和延迟等方面的权衡。 3. 检索增强的重要性：强调了检索增强在提高引用质量中的重要作用。 4. 应用场景建议：为不同的应用场景提供了选择建议，帮助实践者选择合适的引用生成方法。

关键设计：论文的关键设计包括： 1. 检索增强模块：使用检索模型从外部知识库中检索相关信息，以提高引用质量。 2. 评估指标的选择：选择覆盖率、正确性和延迟等指标，全面评估不同方法的性能。 3. 实验设置：设计了从零样本到高级检索增强方法的实验，以全面评估不同方法的性能。

📊 实验亮点

实验结果表明，P-Cite方法在覆盖率方面表现出色，同时保持了具有竞争力的正确性，但延迟较高。G-Cite方法则以牺牲覆盖率和速度为代价，优先考虑精度。检索增强是提高两种范式中归因质量的关键驱动因素。在高风险应用中，建议采用以检索为中心的P-Cite优先方法，而将G-Cite保留给严格的声明验证等对精度要求严格的设置。

🎯 应用场景

该研究成果可应用于需要高度可信度的大型语言模型应用场景，例如医疗诊断、法律咨询、金融分析和学术研究等。通过选择合适的引用生成范式，可以提高LLM生成内容的可靠性和可信度，减少错误信息的传播，并为用户提供更准确和可靠的信息服务。未来的研究可以进一步探索如何结合G-Cite和P-Cite的优点，开发更高效和可靠的引用生成方法。

📄 摘要（原文）

Trustworthy Large Language Models (LLMs) must cite human-verifiable sources in high-stakes domains such as healthcare, law, academia, and finance, where even small errors can have severe consequences. Practitioners and researchers face a choice: let models generate citations during decoding, or let models draft answers first and then attach appropriate citations. To clarify this choice, we introduce two paradigms: Generation-Time Citation (G-Cite), which produces the answer and citations in one pass, and Post-hoc Citation (P-Cite), which adds or verifies citations after drafting. We conduct a comprehensive evaluation from zero-shot to advanced retrieval-augmented methods across four popular attribution datasets and provide evidence-based recommendations that weigh trade-offs across use cases. Our results show a consistent trade-off between coverage and citation correctness, with retrieval as the main driver of attribution quality in both paradigms. P-Cite methods achieve high coverage with competitive correctness and moderate latency, whereas G-Cite methods prioritize precision at the cost of coverage and speed. We recommend a retrieval-centric, P-Cite-first approach for high-stakes applications, reserving G-Cite for precision-critical settings such as strict claim verification. Our codes and human evaluation results are available at https://anonymous.4open.science/r/Citation_Paradigms-BBB5/

Generation-Time vs. Post-hoc Citation: A Holistic Evaluation of LLM Attribution

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册