BibTeX Citation Hallucinations in Scientific Publishing Agents: Evaluation and Mitigation

作者: Delip Rao, Chris Callison-Burch

分类: cs.DL, cs.CL

发布日期: 2026-04-06

💡 一句话要点

针对科学出版代理中BibTeX引用幻觉问题，提出评估基准和clibib缓解方案

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: BibTeX引用 语言模型 科学出版 信息抽取 错误修正 评估基准 知识库 自然语言处理

📋 核心要点

现有科学出版代理依赖大语言模型，但生成BibTeX引用时存在字段级错误，且现有评估未考虑搜索的影响。
提出一个包含多领域、多引用层级的论文基准，用于区分参数记忆和搜索依赖，并开发clibib工具进行错误修正。
实验表明，即使有搜索，模型仍依赖参数记忆，且两阶段集成clibib可显著提高BibTeX条目的准确性。

📝 摘要（中文）

大型语言模型结合网络搜索越来越多地应用于科学出版代理，但它们仍然会生成包含普遍字段级错误的BibTeX条目。先前的评估测试了没有搜索的基础模型，这不反映当前实践。我们构建了一个包含四个科学领域和三个引用层级（流行、低引用和最新截止日期后）的931篇论文的基准，旨在区分参数记忆和搜索依赖性，并使用版本感知的ground truth来考虑同一论文的多个可引用版本。三个支持搜索的前沿模型（GPT-5、Claude Sonnet-4.6、Gemini-3 Flash）生成了BibTeX条目，并在九个字段和一个六向错误分类上进行评分，产生了约23,000个字段级观察结果。总体准确率为83.6%，但只有50.9%的条目完全正确；从流行论文到最新论文，准确率下降了27.7个百分点，表明即使在搜索可用时也严重依赖参数记忆。字段错误共现分析确定了两种失败模式：整体条目替换（身份字段一起失败）和孤立字段错误。我们评估了clibib，这是一个用于从Zotero Translation Server使用CrossRef回退进行确定性BibTeX检索的开源工具，作为一种缓解机制。在baseline条目根据权威记录进行修订的两阶段集成中，准确率提高了+8.0个百分点，达到91.5%，完全正确的条目从50.9%提高到78.3%，回归率仅为0.8%。单阶段和两阶段集成的消融比较表明，将搜索与修订分开可以产生更大的收益和更低的回归率（0.8% vs. 4.8%），这表明集成架构的重要性独立于模型能力。我们发布基准、错误分类和clibib工具，以支持基于LLM的科学写作中引用幻觉的评估和缓解。

🔬 方法详解

问题定义：论文旨在解决科学出版代理中，大型语言模型（LLM）在生成BibTeX引用时出现的“引用幻觉”问题，即生成错误的BibTeX条目。现有方法，特别是那些没有利用网络搜索的基础模型，无法反映当前LLM应用的实际情况，并且缺乏对参数记忆和搜索依赖性的有效区分。现有方法在字段级别的错误率较高，严重影响了科学文献的引用准确性。

核心思路：论文的核心思路是构建一个更贴近实际应用场景的评估基准，并提出一个基于确定性BibTeX检索工具（clibib）的缓解方案。通过构建包含不同引用层级和科学领域的论文数据集，能够更准确地评估LLM在不同情况下的表现。利用clibib从权威来源检索BibTeX信息，并对LLM生成的条目进行修正，从而提高引用准确性。

技术框架：该研究的技术框架主要包含三个部分：1) 构建评估基准：收集包含流行、低引用和最新论文的数据集，并标注版本感知的ground truth。2) 评估LLM：使用支持搜索的前沿LLM（如GPT-5、Claude Sonnet-4.6、Gemini-3 Flash）生成BibTeX条目，并进行错误分析。3) 提出缓解方案：集成clibib工具，通过两阶段流程（生成+修正）或单阶段流程（直接检索）来提高BibTeX条目的准确性。

关键创新：论文的关键创新在于：1) 构建了一个更具代表性的BibTeX引用幻觉评估基准，考虑了搜索依赖性和版本差异。2) 提出了一个基于clibib的实用缓解方案，能够有效提高BibTeX条目的准确性。3) 通过消融实验证明，两阶段集成架构（先生成后修正）优于单阶段集成，表明集成架构本身对性能有重要影响。

关键设计：在评估基准方面，论文设计了三个引用层级（流行、低引用、最新）以区分参数记忆和搜索依赖。在缓解方案方面，clibib工具利用Zotero Translation Server和CrossRef作为权威数据源进行BibTeX检索。两阶段集成中，LLM首先生成BibTeX条目，然后clibib对其进行修正。单阶段集成中，clibib直接生成BibTeX条目。通过比较两种集成方式的性能，评估了集成架构的影响。

🖼️ 关键图片

📊 实验亮点

实验结果表明，即使在有搜索的情况下，LLM仍然严重依赖参数记忆，导致最新论文的BibTeX引用准确率显著下降。通过集成clibib工具，BibTeX条目的总体准确率从83.6%提高到91.5%，完全正确的条目从50.9%提高到78.3%，回归率仅为0.8%。两阶段集成架构优于单阶段集成，验证了集成架构的重要性。

🎯 应用场景

该研究成果可应用于各种科学写作辅助工具和平台，例如自动文献综述生成、论文写作助手等。通过提高BibTeX引用的准确性，可以减少学术不端行为，提升科研成果的可信度，并节省科研人员手动校对引用的时间。未来，该方法可以扩展到其他类型的元数据生成和修正任务中。

📄 摘要（原文）

Large language models with web search are increasingly used in scientific publishing agents, yet they still produce BibTeX entries with pervasive field-level errors. Prior evaluations tested base models without search, which does not reflect current practice. We construct a benchmark of 931 papers across four scientific domains and three citation tiers -- popular, low-citation, and recent post-cutoff -- designed to disentangle parametric memory from search dependence, with version-aware ground truth accounting for multiple citable versions of the same paper. Three search-enabled frontier models (GPT-5, Claude Sonnet-4.6, Gemini-3 Flash) generate BibTeX entries scored on nine fields and a six-way error taxonomy, producing ~23,000 field-level observations. Overall accuracy is 83.6%, but only 50.9% of entries are fully correct; accuracy drops 27.7pp from popular to recent papers, revealing heavy reliance on parametric memory even when search is available. Field-error co-occurrence analysis identifies two failure modes: wholesale entry substitution (identity fields fail together) and isolated field error. We evaluate clibib, an open-source tool for deterministic BibTeX retrieval from the Zotero Translation Server with CrossRef fallback, as a mitigation mechanism. In a two-stage integration where baseline entries are revised against authoritative records, accuracy rises +8.0pp to 91.5%, fully correct entries rise from 50.9% to 78.3%, and regression rate is only 0.8%. An ablation comparing single-stage and two-stage integration shows that separating search from revision yields larger gains and lower regression (0.8% vs. 4.8%), demonstrating that integration architecture matters independently of model capability. We release the benchmark, error taxonomy, and clibib tool to support evaluation and mitigation of citation hallucinations in LLM-based scientific writing.

BibTeX Citation Hallucinations in Scientific Publishing Agents: Evaluation and Mitigation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理