Detecting and Correcting Reference Hallucinations in Commercial LLMs and Deep Research Agents

📄 arXiv: 2604.03173 📥 PDF

作者: Delip Rao, Eric Wong, Chris Callison-Burch

分类: cs.CL

发布日期: 2026-04-06


💡 一句话要点

系统性检测并校正商业LLM和深度研究Agent中的引用幻觉

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 引用幻觉 URL检测 URL校正 Wayback Machine 信息可靠性 深度研究Agent

📋 核心要点

  1. 现有大型语言模型和研究Agent存在引用URL幻觉问题,即提供无效或捏造的链接,影响信息的可信度。
  2. 本文提出了一种系统性的检测和校正方法,通过Wayback Machine等工具识别并修复幻觉URL。
  3. 实验表明,使用本文提出的urlhealth工具,Agent可以显著减少无效引用URL,有效提升信息质量。

📝 摘要(中文)

大型语言模型和深度研究Agent通常会提供引用URL来支持其论断,但这些引用的可靠性尚未得到系统性评估。本文使用DRBench(53,090个URL)上的10个模型和Agent以及ExpertQA(跨32个学术领域的168,021个URL)上的3个模型,研究了关于引用URL有效性的六个问题。研究发现,3-13%的引用URL是幻觉的,即在Wayback Machine中没有记录,可能从未存在过;而5-18%的URL无法解析。深度研究Agent比搜索增强的LLM生成更多的引用,但URL幻觉率更高。领域效应显著:无法解析率从5.4%(商业)到11.4%(神学)不等,模型间差异更大。故障分解表明,一些模型会捏造所有无法解析的URL,而另一些模型则显示出大量的链接腐烂,表明是真实的检索。作为解决方案,本文发布了urlhealth,一个开源工具,用于URL活性检查和使用Wayback Machine进行过时与幻觉分类。在Agent的自我校正实验中,配备urlhealth的模型将无法解析的引用URL减少了6-79倍,降至1%以下,但效果取决于模型的工具使用能力。该工具和所有数据均已公开。本文的研究结果、故障分类和开源工具表明,引用URL的有效性既可以大规模测量,也可以在实践中纠正。

🔬 方法详解

问题定义:大型语言模型和深度研究Agent在生成文本时,常常会提供引用URL来支持其观点。然而,这些URL的有效性存在问题,包括URL可能从未存在过(幻觉)或者已经失效(链接腐烂)。现有方法缺乏对这些问题的系统性评估和有效解决方案,导致用户难以验证信息的真实性。

核心思路:本文的核心思路是构建一个自动化的检测和校正流程,用于识别和修复LLM和Agent生成的无效引用URL。通过分析URL在Wayback Machine中的存在情况,区分幻觉URL和链接腐烂,并利用工具辅助Agent进行自我校正。

技术框架:整体框架包括三个主要阶段:1) URL生成:LLM或Agent生成包含引用URL的文本;2) URL检测:使用urlhealth工具检查URL的活性,并利用Wayback Machine判断其是否为幻觉;3) URL校正:如果检测到无效URL,则Agent利用urlhealth提供的信息进行自我校正,例如尝试查找替代URL或修改文本。

关键创新:本文的关键创新在于提出了一个完整的、可扩展的URL验证和校正流程,并开源了urlhealth工具。该工具能够自动检测URL的活性和幻觉情况,并为Agent提供校正的依据。此外,本文还对不同模型和Agent的URL幻觉率进行了系统性的评估和比较。

关键设计:urlhealth工具的关键设计包括:1) 使用多线程并发检查URL活性,提高效率;2) 利用Wayback Machine API查询URL的历史记录,判断其是否存在;3) 提供API接口,方便Agent调用进行自我校正;4) 针对不同类型的URL错误,提供不同的校正策略,例如查找替代URL或修改文本。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用urlhealth工具,Agent可以将无法解析的引用URL数量减少6-79倍,降低到1%以下。此外,研究还发现不同模型和Agent的URL幻觉率存在显著差异,表明模型架构和训练数据对引用质量有重要影响。该研究为评估和改进LLM和Agent的引用质量提供了重要的参考。

🎯 应用场景

该研究成果可应用于提升大型语言模型和研究Agent生成信息的可靠性和可信度。通过自动检测和校正引用URL的有效性,可以减少虚假信息的传播,提高用户对AI生成内容的信任度。此外,该技术还可以应用于学术研究、新闻报道等领域,确保引用来源的准确性。

📄 摘要(原文)

Large language models and deep research agents supply citation URLs to support their claims, yet the reliability of these citations has not been systematically measured. We address six research questions about citation URL validity using 10 models and agents on DRBench (53,090 URLs) and 3 models on ExpertQA (168,021 URLs across 32 academic fields). We find that 3--13\% of citation URLs are hallucinated -- they have no record in the Wayback Machine and likely never existed -- while 5--18\% are non-resolving overall. Deep research agents generate substantially more citations per query than search-augmented LLMs but hallucinate URLs at higher rates. Domain effects are pronounced: non-resolving rates range from 5.4\% (Business) to 11.4\% (Theology), with per-model effects even larger. Decomposing failures reveals that some models fabricate every non-resolving URL, while others show substantial link-rot fractions indicating genuine retrieval. As a solution, we release urlhealth, an open-source tool for URL liveness checking and stale-vs-hallucinated classification using the Wayback Machine. In agentic self-correction experiments, models equipped with urlhealth reduce non-resolving citation URLs by $6\textrm{--}79\times$ to under 1\%, though effectiveness depends on the model's tool-use competence. The tool and all data are publicly available. Our characterization findings, failure taxonomy, and open-source tooling establish that citation URL validity is both measurable at scale and correctable in practice.