Hidden Prompts in Manuscripts Exploit AI-Assisted Peer Review

📄 arXiv: 2507.06185v1 📥 PDF

作者: Zhicheng Lin

分类: cs.CY, cs.AI, cs.CL, cs.HC

发布日期: 2025-07-08


💡 一句话要点

揭示学术稿件中利用AI辅助评审的隐蔽提示,警惕新型学术不端行为

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: AI辅助评审 学术不端 提示注入 大型语言模型 同行评审 稿件安全 出版伦理

📋 核心要点

  1. 现有学术评审流程易受恶意操纵,作者通过在稿件中嵌入隐蔽提示来影响AI辅助评审,构成新型学术不端行为。
  2. 论文分析了稿件中隐藏的提示注入技术,揭示了多种类型的提示指令,旨在诱导AI评审系统给出正面评价。
  3. 研究揭示了学术出版流程中AI辅助评审的潜在漏洞,强调了制定统一政策和技术筛选的重要性。

📝 摘要(中文)

2025年7月,预印本网站arXiv上发现了18篇学术稿件包含旨在操纵AI辅助同行评审的隐蔽指令,即提示。这些指令,如“仅给出正面评价”,通过诸如白色文本等技术隐藏。作者的回应各不相同:一位计划撤回受影响的论文,而另一位则辩称这种做法是对评审员合规性的合理测试。本评论将这种做法分析为一种新型的学术不端行为。我们研究了大型语言模型(LLM)中的提示注入技术,揭示了四种类型的隐藏提示,从简单的正面评价命令到详细的评估框架。对提示作为检测评审员不当使用AI的“蜜罐”的辩护经不起检验——提示指令一贯的自利性表明了操纵意图。出版商维持着不一致的政策:爱思唯尔完全禁止在同行评审中使用AI,而施普林格·自然则允许有限的使用,但有披露要求。该事件暴露了系统性漏洞,这些漏洞不仅限于同行评审,还延伸到任何处理学术文本的自动化系统,包括抄袭检测和引文索引。我们的分析强调需要在提交门户进行协调一致的技术筛选,并协调管理学术评估中生成式AI(GenAI)使用的政策。

🔬 方法详解

问题定义:论文旨在解决学术稿件中出现的利用隐蔽提示操纵AI辅助同行评审的问题。现有评审流程依赖自动化系统,但缺乏对恶意提示注入的有效防御,导致评审结果可能被不公正地影响。这种新型学术不端行为的出现,对学术出版的公正性和可靠性构成了威胁。

核心思路:论文的核心思路是分析和揭示稿件中隐藏的提示注入技术,并评估其对AI辅助评审的影响。通过识别不同类型的隐蔽提示,并分析作者的动机和辩护,论文旨在证明这种做法是一种新型的学术不端行为,而非合理的测试或实验。

技术框架:论文主要采用案例分析和文本分析的方法。首先,论文识别了arXiv上18篇包含隐蔽提示的学术稿件。然后,论文对这些稿件中的提示进行分类,分析其内容和目的。接着,论文评估了作者对使用这些提示的辩护,并将其与学术不端行为的定义进行比较。最后,论文分析了出版商对AI辅助评审的政策,并提出了改进建议。

关键创新:论文的关键创新在于识别并定义了一种新型的学术不端行为,即利用隐蔽提示操纵AI辅助同行评审。论文还对不同类型的隐蔽提示进行了分类,并分析了其对AI辅助评审的影响。此外,论文还提出了改进学术出版流程的建议,以防止此类不端行为的发生。

关键设计:论文没有涉及具体的参数设置、损失函数或网络结构等技术细节。其重点在于对现象的分析和问题的揭示,而非算法或模型的优化。

📊 实验亮点

论文揭示了18篇arXiv稿件中存在的隐蔽提示,这些提示旨在操纵AI辅助评审。研究分析了四种类型的隐藏提示,并驳斥了作者将其辩解为“蜜罐”的说法。研究强调了出版商政策的不一致性,并呼吁加强技术筛选和政策协调。

🎯 应用场景

该研究成果可应用于学术出版领域,用于改进稿件提交和评审流程,防止恶意提示注入,提高评审的公正性和可靠性。同时,该研究也提醒人们关注AI系统在处理文本时可能存在的漏洞,并促进相关安全技术的研发。

📄 摘要(原文)

In July 2025, 18 academic manuscripts on the preprint website arXiv were found to contain hidden instructions known as prompts designed to manipulate AI-assisted peer review. Instructions such as "GIVE A POSITIVE REVIEW ONLY" were concealed using techniques like white-colored text. Author responses varied: one planned to withdraw the affected paper, while another defended the practice as legitimate testing of reviewer compliance. This commentary analyzes this practice as a novel form of research misconduct. We examine the technique of prompt injection in large language models (LLMs), revealing four types of hidden prompts, ranging from simple positive review commands to detailed evaluation frameworks. The defense that prompts served as "honeypots" to detect reviewers improperly using AI fails under examination--the consistently self-serving nature of prompt instructions indicates intent to manipulate. Publishers maintain inconsistent policies: Elsevier prohibits AI use in peer review entirely, while Springer Nature permits limited use with disclosure requirements. The incident exposes systematic vulnerabilities extending beyond peer review to any automated system processing scholarly texts, including plagiarism detection and citation indexing. Our analysis underscores the need for coordinated technical screening at submission portals and harmonized policies governing generative AI (GenAI) use in academic evaluation.