Structurally Human, Semantically Biased: Detecting LLM-Generated References with Embeddings and GNNs
作者: Melika Mobini, Vincent Holst, Floriano Tori, Andres Algaba, Vincent Ginis
分类: cs.LG
发布日期: 2026-01-28
备注: 34 pages, 20 figures. Accepted at ICLR 2026
💡 一句话要点
利用嵌入和图神经网络检测大型语言模型生成的参考文献
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 参考文献检测 图神经网络 语义嵌入 学术诚信
📋 核心要点
- 大型语言模型生成参考文献的能力日益增强,但其生成结果与人类生成结果的差异尚不明确,存在潜在的学术不端风险。
- 该论文提出利用引用图结构和语义嵌入,区分大型语言模型生成的参考文献和人类生成的参考文献,着重分析语义指纹。
- 实验结果表明,仅依靠图结构难以有效区分,但结合标题/摘要嵌入后,图神经网络能达到93%的准确率,证明语义信息的重要性。
📝 摘要(中文)
大型语言模型越来越多地被用于生成参考文献,这引发了一个问题:它们生成的参考文献列表与人类生成的参考文献列表是否可以区分?我们构建了配对的引用图,包括来自SciSciNet的10,000篇焦点论文(约27.5万篇参考文献)的真实数据和GPT-4o生成的(来自参数知识)数据,并添加了一个字段匹配的随机基线,该基线保留了出度和字段分布,同时打破了潜在结构。我们比较了(i)仅结构节点特征(度/接近度/特征向量中心性、聚类、边数)与(ii)3072维标题/摘要嵌入,使用图级别聚合上的随机森林和具有节点特征的图神经网络。仅结构特征几乎不能区分GPT和真实数据(随机森林准确率约为0.60),尽管可以清晰地拒绝随机基线(约为0.89-0.92)。相比之下,嵌入显著提高了可分离性:聚合嵌入上的随机森林达到约0.83,而具有嵌入节点特征的图神经网络在GPT与真实数据的测试准确率上达到93%。我们通过使用Claude Sonnet 4.5和多个嵌入模型(OpenAI和SPECTER)复制该流程,证明了我们发现的稳健性,其中真实数据与Claude的随机森林可分离性约为0.77,并且可以清晰地拒绝随机基线。因此,完全从参数知识生成的大型语言模型参考文献,与人类的引用拓扑结构非常相似,但留下了可检测的语义指纹;检测和去偏应该针对内容信号,而不是全局图结构。
🔬 方法详解
问题定义:论文旨在解决如何区分大型语言模型(LLM)生成的参考文献列表与人类生成的参考文献列表的问题。现有方法主要依赖人工审核,效率低下且成本高昂。此外,简单地比较引用数量等指标可能无法有效区分,因为LLM可以模仿人类的引用行为。因此,需要一种自动化的、能够捕捉LLM生成参考文献独特特征的方法。
核心思路:论文的核心思路是利用引用图的结构信息和参考文献的语义信息,训练机器学习模型来区分LLM生成的参考文献和人类生成的参考文献。作者认为,虽然LLM可以模仿人类的引用拓扑结构,但由于其知识来源和生成方式的差异,生成的参考文献在语义上会留下可检测的“指纹”。
技术框架:整体框架包括以下几个步骤:1) 构建引用图:从SciSciNet获取焦点论文及其参考文献,构建真实引用图。2) 生成LLM引用图:使用GPT-4o和Claude Sonnet 4.5生成相同焦点论文的参考文献,构建LLM引用图。3) 提取节点特征:提取引用图的结构特征(如度中心性、聚类系数)和语义特征(标题/摘要嵌入)。4) 模型训练与评估:使用随机森林(RF)和图神经网络(GNN)对提取的特征进行训练,评估模型区分LLM和人类生成参考文献的能力。5) 基线对比:与随机生成的引用图进行对比,验证模型对真实引用结构的敏感性。
关键创新:论文的关键创新在于:1) 结合了引用图的结构信息和语义信息,更全面地捕捉了LLM生成参考文献的特征。2) 证明了仅依靠图结构难以有效区分LLM和人类生成的参考文献,而语义信息是关键。3) 通过实验验证了该方法在不同LLM和嵌入模型上的鲁棒性。
关键设计:在特征提取方面,论文使用了多种结构特征(度、接近度、特征向量中心性、聚类、边数)和3072维的标题/摘要嵌入(使用OpenAI和SPECTER等模型)。在模型选择方面,使用了随机森林(RF)和图神经网络(GNN)。GNN的具体结构未知,但明确使用了节点特征。损失函数和网络结构等技术细节未在摘要中明确说明。
📊 实验亮点
实验结果表明,仅使用结构特征的随机森林准确率约为0.60,而使用聚合嵌入的随机森林准确率提高到约0.83。更重要的是,使用嵌入节点特征的图神经网络在GPT与真实数据的区分上达到了93%的测试准确率。此外,该方法在Claude Sonnet 4.5和不同的嵌入模型上都表现出良好的鲁棒性,表明其具有广泛的适用性。
🎯 应用场景
该研究成果可应用于学术诚信检测、科研评价和文献推荐等领域。通过自动检测LLM生成的参考文献,可以帮助识别潜在的学术不端行为,提高科研成果的可靠性。此外,该方法还可以用于评估LLM生成文献综述的质量,并为文献推荐系统提供更准确的语义信息。
📄 摘要(原文)
Large language models are increasingly used to curate bibliographies, raising the question: are their reference lists distinguishable from human ones? We build paired citation graphs, ground truth and GPT-4o-generated (from parametric knowledge), for 10,000 focal papers ($\approx$ 275k references) from SciSciNet, and added a field-matched random baseline that preserves out-degree and field distributions while breaking latent structure. We compare (i) structure-only node features (degree/closeness/eigenvector centrality, clustering, edge count) with (ii) 3072-D title/abstract embeddings, using an RF on graph-level aggregates and Graph Neural Networks with node features. Structure alone barely separates GPT from ground truth (RF accuracy $\approx$ 0.60) despite cleanly rejecting the random baseline ($\approx$ 0.89--0.92). By contrast, embeddings sharply increase separability: RF on aggregated embeddings reaches $\approx$ 0.83, and GNNs with embedding node features achieve 93\% test accuracy on GPT vs.\ ground truth. We show the robustness of our findings by replicating the pipeline with Claude Sonnet 4.5 and with multiple embedding models (OpenAI and SPECTER), with RF separability for ground truth vs.\ Claude $\approx 0.77$ and clean rejection of the random baseline. Thus, LLM bibliographies, generated purely from parametric knowledge, closely mimic human citation topology, but leave detectable semantic fingerprints; detection and debiasing should target content signals rather than global graph structure.