Trust but Verify: Introducing DAVinCI -- A Framework for Dual Attribution and Verification in Claim Inference for Language Models

作者: Vipula Rawte, Ryan Rossi, Franck Dernoncourt, Nedim Lipka

分类: cs.AI

发布日期: 2026-04-23

💡 一句话要点

DAVinCI框架通过双重归因与验证提升语言模型生成声明的事实可靠性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 事实性验证 可解释性AI 归因分析 自然语言推理

📋 核心要点

现有大型语言模型易出现事实性错误和幻觉，限制了其在高风险领域的应用。
DAVinCI框架通过双重归因（内部组件和外部来源）和验证来提高LLM输出的事实可靠性。
实验结果表明，DAVinCI在多个数据集上显著提高了分类准确率、归因精确率、召回率和F1分数，提升幅度为5-20%。

📝 摘要（中文）

大型语言模型(LLM)在各种NLP任务中表现出卓越的流畅性和通用性，但它们仍然容易出现事实不准确和幻觉。这种局限性在高风险领域（如医疗保健、法律和科学交流）中构成了重大风险，在这些领域中，信任和可验证性至关重要。本文介绍了DAVinCI——一个双重归因和验证框架，旨在增强LLM输出的事实可靠性和可解释性。DAVinCI分两个阶段运行：(i)将生成的声明归因于内部模型组件和外部来源；(ii)使用基于蕴含的推理和置信度校准来验证每个声明。我们在包括FEVER和CLIMATE-FEVER在内的多个数据集上评估DAVinCI，并将其性能与标准仅验证基线进行比较。我们的结果表明，DAVinCI显著提高了分类准确率、归因精确率、召回率和F1分数，提升幅度为5-20%。通过广泛的消融研究，我们分离了证据跨度选择、重新校准阈值和检索质量的贡献。我们还发布了一个模块化的DAVinCI实现，可以集成到现有的LLM管道中。通过桥接归因和验证，DAVinCI为可审计、可信赖的AI系统提供了一条可扩展的路径。这项工作有助于不断努力使LLM不仅强大而且负责。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）生成内容时存在的“幻觉”问题，即生成不准确或与事实不符的陈述。现有方法主要集中在验证生成的内容，但缺乏对错误来源的追溯和解释，难以有效提升LLM的可靠性。

核心思路：DAVinCI的核心思路是将归因（Attribution）和验证（Verification）相结合。首先，尝试确定生成特定声明的LLM内部组件和外部证据来源；然后，利用这些信息进行更可靠的验证。这种双重机制旨在提高LLM输出的可信度和可解释性。

技术框架：DAVinCI框架包含两个主要阶段：1) 归因阶段：确定生成声明的LLM内部组件（例如，特定神经元或参数）以及相关的外部知识来源（例如，维基百科页面）。这可能涉及使用梯度分析、注意力机制或其他可解释性技术。2) 验证阶段：利用归因阶段获得的信息，使用基于蕴含的推理和置信度校准来验证每个声明。这可能涉及使用自然语言推理（NLI）模型来判断声明是否与外部证据一致。

关键创新：DAVinCI的关键创新在于其双重归因和验证机制。与传统的仅验证方法相比，DAVinCI能够追溯错误来源，从而提供更深入的理解和改进LLM的途径。此外，该框架的模块化设计使其易于集成到现有的LLM管道中。

关键设计：DAVinCI的关键设计包括：1) 证据跨度选择：选择与声明相关的外部证据片段，这可能涉及使用信息检索技术。2) 重新校准阈值：调整置信度校准的阈值，以优化验证的准确性。3) 检索质量：提高外部知识检索的质量，以确保验证的可靠性。具体的损失函数和网络结构取决于所使用的LLM和NLI模型。

🖼️ 关键图片

📊 实验亮点

实验结果表明，DAVinCI在FEVER和CLIMATE-FEVER等数据集上显著提高了分类准确率、归因精确率、召回率和F1分数，提升幅度为5-20%。消融研究表明，证据跨度选择、重新校准阈值和检索质量对DAVinCI的性能至关重要。该框架的模块化设计使其易于集成到现有的LLM管道中。

🎯 应用场景

DAVinCI框架可应用于需要高度可信赖AI系统的领域，如医疗诊断、法律咨询、金融分析和科学研究。通过提高LLM输出的事实准确性和可解释性，DAVinCI有助于构建更可靠、更负责任的人工智能系统，从而提升用户对AI的信任度。

📄 摘要（原文）

Large Language Models (LLMs) have demonstrated remarkable fluency and versatility across a wide range of NLP tasks, yet they remain prone to factual inaccuracies and hallucinations. This limitation poses significant risks in high-stakes domains such as healthcare, law, and scientific communication, where trust and verifiability are paramount. In this paper, we introduce DAVinCI - a Dual Attribution and Verification framework designed to enhance the factual reliability and interpretability of LLM outputs. DAVinCI operates in two stages: (i) it attributes generated claims to internal model components and external sources; (ii) it verifies each claim using entailment-based reasoning and confidence calibration. We evaluate DAVinCI across multiple datasets, including FEVER and CLIMATE-FEVER, and compare its performance against standard verification-only baselines. Our results show that DAVinCI significantly improves classification accuracy, attribution precision, recall, and F1-score by 5-20%. Through an extensive ablation study, we isolate the contributions of evidence span selection, recalibration thresholds, and retrieval quality. We also release a modular DAVinCI implementation that can be integrated into existing LLM pipelines. By bridging attribution and verification, DAVinCI offers a scalable path to auditable, trustworthy AI systems. This work contributes to the growing effort to make LLMs not only powerful but also accountable.

Trust but Verify: Introducing DAVinCI -- A Framework for Dual Attribution and Verification in Claim Inference for Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理