Trust but Verify: Introducing DAVinCI -- A Framework for Dual Attribution and Verification in Claim Inference for Language Models

📄 arXiv: 2604.21193v1 📥 PDF

作者: Vipula Rawte, Ryan Rossi, Franck Dernoncourt, Nedim Lipka

分类: cs.AI

发布日期: 2026-04-23


💡 一句话要点

DAVinCI框架通过双重归因与验证提升语言模型生成声明的事实可靠性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 事实性验证 可解释性AI 归因分析 自然语言推理

📋 核心要点

  1. 现有大型语言模型易出现事实性错误和幻觉,限制了其在高风险领域的应用。
  2. DAVinCI框架通过双重归因(内部组件和外部来源)和验证来提高LLM输出的事实可靠性。
  3. 实验结果表明,DAVinCI在多个数据集上显著提高了分类准确率、归因精确率、召回率和F1分数,提升幅度为5-20%。

📝 摘要(中文)

大型语言模型(LLM)在各种NLP任务中表现出卓越的流畅性和通用性,但它们仍然容易出现事实不准确和幻觉。这种局限性在高风险领域(如医疗保健、法律和科学交流)中构成了重大风险,在这些领域中,信任和可验证性至关重要。本文介绍了DAVinCI——一个双重归因和验证框架,旨在增强LLM输出的事实可靠性和可解释性。DAVinCI分两个阶段运行:(i)将生成的声明归因于内部模型组件和外部来源;(ii)使用基于蕴含的推理和置信度校准来验证每个声明。我们在包括FEVER和CLIMATE-FEVER在内的多个数据集上评估DAVinCI,并将其性能与标准仅验证基线进行比较。我们的结果表明,DAVinCI显著提高了分类准确率、归因精确率、召回率和F1分数,提升幅度为5-20%。通过广泛的消融研究,我们分离了证据跨度选择、重新校准阈值和检索质量的贡献。我们还发布了一个模块化的DAVinCI实现,可以集成到现有的LLM管道中。通过桥接归因和验证,DAVinCI为可审计、可信赖的AI系统提供了一条可扩展的路径。这项工作有助于不断努力使LLM不仅强大而且负责。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)生成内容时存在的“幻觉”问题,即生成不准确或与事实不符的陈述。现有方法主要集中在验证生成的内容,但缺乏对错误来源的追溯和解释,难以有效提升LLM的可靠性。

核心思路:DAVinCI的核心思路是将归因(Attribution)和验证(Verification)相结合。首先,尝试确定生成特定声明的LLM内部组件和外部证据来源;然后,利用这些信息进行更可靠的验证。这种双重机制旨在提高LLM输出的可信度和可解释性。

技术框架:DAVinCI框架包含两个主要阶段:1) 归因阶段:确定生成声明的LLM内部组件(例如,特定神经元或参数)以及相关的外部知识来源(例如,维基百科页面)。这可能涉及使用梯度分析、注意力机制或其他可解释性技术。2) 验证阶段:利用归因阶段获得的信息,使用基于蕴含的推理和置信度校准来验证每个声明。这可能涉及使用自然语言推理(NLI)模型来判断声明是否与外部证据一致。

关键创新:DAVinCI的关键创新在于其双重归因和验证机制。与传统的仅验证方法相比,DAVinCI能够追溯错误来源,从而提供更深入的理解和改进LLM的途径。此外,该框架的模块化设计使其易于集成到现有的LLM管道中。

关键设计:DAVinCI的关键设计包括:1) 证据跨度选择:选择与声明相关的外部证据片段,这可能涉及使用信息检索技术。2) 重新校准阈值:调整置信度校准的阈值,以优化验证的准确性。3) 检索质量:提高外部知识检索的质量,以确保验证的可靠性。具体的损失函数和网络结构取决于所使用的LLM和NLI模型。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,DAVinCI在FEVER和CLIMATE-FEVER等数据集上显著提高了分类准确率、归因精确率、召回率和F1分数,提升幅度为5-20%。消融研究表明,证据跨度选择、重新校准阈值和检索质量对DAVinCI的性能至关重要。该框架的模块化设计使其易于集成到现有的LLM管道中。

🎯 应用场景

DAVinCI框架可应用于需要高度可信赖AI系统的领域,如医疗诊断、法律咨询、金融分析和科学研究。通过提高LLM输出的事实准确性和可解释性,DAVinCI有助于构建更可靠、更负责任的人工智能系统,从而提升用户对AI的信任度。

📄 摘要(原文)

Large Language Models (LLMs) have demonstrated remarkable fluency and versatility across a wide range of NLP tasks, yet they remain prone to factual inaccuracies and hallucinations. This limitation poses significant risks in high-stakes domains such as healthcare, law, and scientific communication, where trust and verifiability are paramount. In this paper, we introduce DAVinCI - a Dual Attribution and Verification framework designed to enhance the factual reliability and interpretability of LLM outputs. DAVinCI operates in two stages: (i) it attributes generated claims to internal model components and external sources; (ii) it verifies each claim using entailment-based reasoning and confidence calibration. We evaluate DAVinCI across multiple datasets, including FEVER and CLIMATE-FEVER, and compare its performance against standard verification-only baselines. Our results show that DAVinCI significantly improves classification accuracy, attribution precision, recall, and F1-score by 5-20%. Through an extensive ablation study, we isolate the contributions of evidence span selection, recalibration thresholds, and retrieval quality. We also release a modular DAVinCI implementation that can be integrated into existing LLM pipelines. By bridging attribution and verification, DAVinCI offers a scalable path to auditable, trustworthy AI systems. This work contributes to the growing effort to make LLMs not only powerful but also accountable.