Are we still able to recognize pearls? Machine-driven peer review and the risk to creativity: An explainable RAG-XAI detection framework with markers extraction

📄 arXiv: 2604.07964v1 📥 PDF

作者: Alin-Gabriel Văduva, Simona-Vasilica Oprea, Adela Bâra

分类: cs.AI, cs.LG

发布日期: 2026-04-09


💡 一句话要点

提出RAG-XAI框架,用于检测机器驱动的同行评审,保障科研创造力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 同行评审 大型语言模型 可解释AI 自动化检测 RAG XAI 学术出版 机器学习

📋 核心要点

  1. 现有同行评审流程面临被大型语言模型自动化替代的风险,可能导致科研评估标准僵化,扼杀创新。
  2. 提出RAG-XAI框架,利用可解释AI技术检测机器生成的评审,提取关键特征,评估评审质量,保障科研透明度。
  3. 实验结果表明,该框架在检测自动化评审方面表现出色,准确率高达99.61%,假阳性率极低,有效识别评审中的自动化模式。

📝 摘要(中文)

大型语言模型(LLM)融入同行评审引发了对整个编辑流程潜在自动化级联的担忧,超越了署名权和检测本身。随着评审部分或全部由机器生成,编辑决策也可能委托给算法系统,导致完全自动化的评估流程。这可能重塑科学工作评估的标准。本文认为,机器驱动的评估可能系统性地偏袒标准化、符合模式的研究,同时惩罚需要情境化人工判断的非常规和颠覆性思想。这种转变可能导致认知同质化,研究人员会隐式地被激励去优化他们的工作以获得算法的批准,而不是真正的发现。为了解决这个风险,我们引入了一个可解释的框架(RAG-XAI),用于评估评审质量和检测使用标记LLM提取器的自动化模式,旨在保持科学的透明度、责任感和创造力。所提出的框架实现了接近完美的检测性能,XGBoost、随机森林和LightGBM在测试集上达到了99.61%的准确率,AUC-ROC高于0.999,F1-score为0.9925,同时保持极低的假阳性率(<0.23%)和假阴性率(~0.8%)。相比之下,逻辑回归基线的性能明显较差(89.97%的准确率,F1-score为0.8314)。特征重要性和SHAP分析表明,缺乏个人信号和重复模式是主要的预测因子。此外,RAG组件实现了90.5%的top-1检索准确率,在嵌入空间中具有很强的同类聚类,进一步支持了框架输出的可靠性。

🔬 方法详解

问题定义:论文旨在解决同行评审过程中,大型语言模型(LLM)自动化可能带来的问题。现有同行评审流程依赖人工,效率较低且主观性强。如果评审过程被LLM自动化,可能导致评审标准僵化,扼杀创新性研究,鼓励研究者迎合算法偏好,而非追求真正的科学发现。

核心思路:论文的核心思路是构建一个可解释的框架,用于检测机器生成的评审,从而保障评审的质量和公正性。该框架通过分析评审文本的特征,识别自动化模式,并提供可解释的决策依据,帮助编辑判断评审的可靠性。

技术框架:该框架名为RAG-XAI,包含以下主要模块:1) RAG (Retrieval-Augmented Generation) 组件:用于检索与评审相关的背景知识,增强评审文本的语义表示。2) LLM Marker Extractor:利用LLM提取评审文本中的关键特征,例如是否存在个人信号、是否存在重复模式等。3) XAI (Explainable AI) 分类器:使用机器学习模型(如XGBoost、随机森林等)对评审文本进行分类,判断其是否为机器生成。同时,利用SHAP等技术解释模型的决策过程。

关键创新:该论文的关键创新在于提出了一个可解释的框架,用于检测机器生成的评审。该框架不仅能够准确地识别自动化评审,还能够提供可解释的决策依据,帮助编辑理解模型的判断逻辑。此外,该框架结合了RAG和XAI技术,提高了检测的准确性和可解释性。

关键设计:RAG组件使用预训练的语言模型(具体模型未知)进行文本嵌入,并使用余弦相似度进行检索。LLM Marker Extractor使用特定的prompt工程(具体prompt未知)来提取评审文本中的特征。XAI分类器使用了XGBoost、随机森林和LightGBM等多种机器学习模型,并使用网格搜索等方法进行超参数优化。损失函数使用了标准的交叉熵损失函数。

📊 实验亮点

实验结果表明,RAG-XAI框架在检测机器生成的评审方面表现出色。XGBoost、随机森林和LightGBM等模型在测试集上达到了99.61%的准确率,AUC-ROC高于0.999,F1-score为0.9925,同时保持极低的假阳性率(<0.23%)和假阴性率(~0.8%)。相比之下,逻辑回归基线的性能明显较差(89.97%的准确率,F1-score为0.8314)。

🎯 应用场景

该研究成果可应用于学术出版领域,帮助期刊编辑识别和过滤机器生成的评审,维护同行评审的公正性和质量。此外,该框架也可用于评估其他类型文本的质量,例如新闻报道、产品评论等,提高信息的可信度。未来,该研究可扩展到检测其他类型的学术不端行为,例如抄袭、数据伪造等。

📄 摘要(原文)

The integration of large language models (LLMs) into peer review raises a concern beyond authorship and detection: the potential cascading automation of the entire editorial process. As reviews become partially or fully machine-generated, it becomes plausible that editorial decisions may also be delegated to algorithmic systems, leading to a fully automated evaluation pipeline. They risk reshaping the criteria by which scientific work is assessed. This paper argues that machine-driven assessment may systematically favor standardized, pattern-conforming research while penalizing unconventional and paradigm-shifting ideas that require contextual human judgment. We consider that this shift could lead to epistemic homogenization, where researchers are implicitly incentivized to optimize their work for algorithmic approval rather than genuine discovery. To address this risk, we introduce an explainable framework (RAG-XAI) for assessing review quality and detecting automated patterns using markers LLM extractor, aiming to preserve transparency, accountability and creativity in science. The proposed framework achieves near-perfect detection performance, with XGBoost, Random Forest and LightGBM reaching 99.61% accuracy, AUC-ROC above 0.999 and F1-scores of 0.9925 on the test set, while maintaining extremely low false positive rates (<0.23%) and false negative rates (~0.8%). In contrast, the logistic regression baseline performs substantially worse (89.97% accuracy, F1-score 0.8314). Feature importance and SHAP analyses identify absence of personal signals and repetition patterns as the dominant predictors. Additionally, the RAG component achieves 90.5% top-1 retrieval accuracy, with strong same-class clustering in the embedding space, further supporting the reliability of the framework's outputs.