BibTeX Citation Hallucinations in Scientific Publishing Agents: Evaluation and Mitigation

📄 arXiv: 2604.03159 📥 PDF

作者: Delip Rao, Chris Callison-Burch

分类: cs.DL, cs.CL

发布日期: 2026-04-06


💡 一句话要点

针对科学出版代理中BibTeX引用幻觉问题,提出评估基准和clibib缓解方案

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: BibTeX引用 语言模型 科学出版 信息抽取 错误修正 评估基准 知识库 自然语言处理

📋 核心要点

  1. 现有科学出版代理依赖大语言模型,但生成BibTeX引用时存在字段级错误,且现有评估未考虑搜索的影响。
  2. 提出一个包含多领域、多引用层级的论文基准,用于区分参数记忆和搜索依赖,并开发clibib工具进行错误修正。
  3. 实验表明,即使有搜索,模型仍依赖参数记忆,且两阶段集成clibib可显著提高BibTeX条目的准确性。

📝 摘要(中文)

大型语言模型结合网络搜索越来越多地应用于科学出版代理,但它们仍然会生成包含普遍字段级错误的BibTeX条目。先前的评估测试了没有搜索的基础模型,这不反映当前实践。我们构建了一个包含四个科学领域和三个引用层级(流行、低引用和最新截止日期后)的931篇论文的基准,旨在区分参数记忆和搜索依赖性,并使用版本感知的ground truth来考虑同一论文的多个可引用版本。三个支持搜索的前沿模型(GPT-5、Claude Sonnet-4.6、Gemini-3 Flash)生成了BibTeX条目,并在九个字段和一个六向错误分类上进行评分,产生了约23,000个字段级观察结果。总体准确率为83.6%,但只有50.9%的条目完全正确;从流行论文到最新论文,准确率下降了27.7个百分点,表明即使在搜索可用时也严重依赖参数记忆。字段错误共现分析确定了两种失败模式:整体条目替换(身份字段一起失败)和孤立字段错误。我们评估了clibib,这是一个用于从Zotero Translation Server使用CrossRef回退进行确定性BibTeX检索的开源工具,作为一种缓解机制。在baseline条目根据权威记录进行修订的两阶段集成中,准确率提高了+8.0个百分点,达到91.5%,完全正确的条目从50.9%提高到78.3%,回归率仅为0.8%。单阶段和两阶段集成的消融比较表明,将搜索与修订分开可以产生更大的收益和更低的回归率(0.8% vs. 4.8%),这表明集成架构的重要性独立于模型能力。我们发布基准、错误分类和clibib工具,以支持基于LLM的科学写作中引用幻觉的评估和缓解。

🔬 方法详解

问题定义:论文旨在解决科学出版代理中,大型语言模型(LLM)在生成BibTeX引用时出现的“引用幻觉”问题,即生成错误的BibTeX条目。现有方法,特别是那些没有利用网络搜索的基础模型,无法反映当前LLM应用的实际情况,并且缺乏对参数记忆和搜索依赖性的有效区分。现有方法在字段级别的错误率较高,严重影响了科学文献的引用准确性。

核心思路:论文的核心思路是构建一个更贴近实际应用场景的评估基准,并提出一个基于确定性BibTeX检索工具(clibib)的缓解方案。通过构建包含不同引用层级和科学领域的论文数据集,能够更准确地评估LLM在不同情况下的表现。利用clibib从权威来源检索BibTeX信息,并对LLM生成的条目进行修正,从而提高引用准确性。

技术框架:该研究的技术框架主要包含三个部分:1) 构建评估基准:收集包含流行、低引用和最新论文的数据集,并标注版本感知的ground truth。2) 评估LLM:使用支持搜索的前沿LLM(如GPT-5、Claude Sonnet-4.6、Gemini-3 Flash)生成BibTeX条目,并进行错误分析。3) 提出缓解方案:集成clibib工具,通过两阶段流程(生成+修正)或单阶段流程(直接检索)来提高BibTeX条目的准确性。

关键创新:论文的关键创新在于:1) 构建了一个更具代表性的BibTeX引用幻觉评估基准,考虑了搜索依赖性和版本差异。2) 提出了一个基于clibib的实用缓解方案,能够有效提高BibTeX条目的准确性。3) 通过消融实验证明,两阶段集成架构(先生成后修正)优于单阶段集成,表明集成架构本身对性能有重要影响。

关键设计:在评估基准方面,论文设计了三个引用层级(流行、低引用、最新)以区分参数记忆和搜索依赖。在缓解方案方面,clibib工具利用Zotero Translation Server和CrossRef作为权威数据源进行BibTeX检索。两阶段集成中,LLM首先生成BibTeX条目,然后clibib对其进行修正。单阶段集成中,clibib直接生成BibTeX条目。通过比较两种集成方式的性能,评估了集成架构的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使在有搜索的情况下,LLM仍然严重依赖参数记忆,导致最新论文的BibTeX引用准确率显著下降。通过集成clibib工具,BibTeX条目的总体准确率从83.6%提高到91.5%,完全正确的条目从50.9%提高到78.3%,回归率仅为0.8%。两阶段集成架构优于单阶段集成,验证了集成架构的重要性。

🎯 应用场景

该研究成果可应用于各种科学写作辅助工具和平台,例如自动文献综述生成、论文写作助手等。通过提高BibTeX引用的准确性,可以减少学术不端行为,提升科研成果的可信度,并节省科研人员手动校对引用的时间。未来,该方法可以扩展到其他类型的元数据生成和修正任务中。

📄 摘要(原文)

Large language models with web search are increasingly used in scientific publishing agents, yet they still produce BibTeX entries with pervasive field-level errors. Prior evaluations tested base models without search, which does not reflect current practice. We construct a benchmark of 931 papers across four scientific domains and three citation tiers -- popular, low-citation, and recent post-cutoff -- designed to disentangle parametric memory from search dependence, with version-aware ground truth accounting for multiple citable versions of the same paper. Three search-enabled frontier models (GPT-5, Claude Sonnet-4.6, Gemini-3 Flash) generate BibTeX entries scored on nine fields and a six-way error taxonomy, producing ~23,000 field-level observations. Overall accuracy is 83.6%, but only 50.9% of entries are fully correct; accuracy drops 27.7pp from popular to recent papers, revealing heavy reliance on parametric memory even when search is available. Field-error co-occurrence analysis identifies two failure modes: wholesale entry substitution (identity fields fail together) and isolated field error. We evaluate clibib, an open-source tool for deterministic BibTeX retrieval from the Zotero Translation Server with CrossRef fallback, as a mitigation mechanism. In a two-stage integration where baseline entries are revised against authoritative records, accuracy rises +8.0pp to 91.5%, fully correct entries rise from 50.9% to 78.3%, and regression rate is only 0.8%. An ablation comparing single-stage and two-stage integration shows that separating search from revision yields larger gains and lower regression (0.8% vs. 4.8%), demonstrating that integration architecture matters independently of model capability. We release the benchmark, error taxonomy, and clibib tool to support evaluation and mitigation of citation hallucinations in LLM-based scientific writing.