CoCoNUTS: Concentrating on Content while Neglecting Uninformative Textual Styles for AI-Generated Peer Review Detection
作者: Yihan Chen, Jiawei Chen, Guozhao Mo, Xuanang Chen, Ben He, Xianpei Han, Le Sun
分类: cs.CL, cs.AI
发布日期: 2025-08-28
🔗 代码/项目: GITHUB
💡 一句话要点
提出CoCoNUTS基准和CoCoDet检测器,用于识别同行评审中AI生成的内容,关注内容而非风格。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: AI生成文本检测 同行评审 自然语言处理 多任务学习 内容分析
📋 核心要点
- 现有AI生成文本检测器易受攻击,且侧重风格而非内容,无法有效识别同行评审中AI生成的内容。
- CoCoNUTS基准和CoCoDet检测器通过关注评审内容而非风格,提升了AI生成评审的检测准确性和鲁棒性。
- 论文构建了细粒度数据集,涵盖六种人机协作模式,为评估LLMs在同行评审中的应用奠定了基础。
📝 摘要(中文)
大型语言模型(LLMs)日益融入同行评审过程,给学术评估的公平性和可靠性带来了潜在风险。虽然LLMs在语言润色方面为审稿人提供了有价值的帮助,但人们越来越关注它们被用于生成实质性的评审内容。现有的通用AI生成文本检测器容易受到释义攻击,并且难以区分表面语言润色和实质内容生成,这表明它们主要依赖于风格线索。当应用于同行评审时,这种局限性可能导致不公平地怀疑那些使用AI辅助语言增强的评审,同时未能发现经过人为修饰的AI生成的评审。为了解决这个问题,我们提出了一种从基于风格到基于内容的检测范式转变。具体来说,我们引入了CoCoNUTS,这是一个面向内容的基准,建立在AI生成的同行评审的细粒度数据集之上,涵盖了六种不同的人机协作模式。此外,我们开发了CoCoDet,一个通过多任务学习框架实现的AI评审检测器,旨在实现对评审内容中AI参与的更准确和鲁棒的检测。我们的工作为评估LLMs在同行评审中的使用提供了实践基础,并有助于开发更精确、公平和可靠的检测方法,以用于真实的学术应用。我们的代码和数据将在https://github.com/Y1hanChen/COCONUTS上公开。
🔬 方法详解
问题定义:论文旨在解决现有AI生成文本检测器在同行评审场景下表现不佳的问题。现有方法主要依赖于文本的风格特征进行判断,容易被释义攻击绕过,并且无法区分AI辅助的语言润色和完全由AI生成的内容。这导致了对正常使用AI辅助工具的审稿人的误判,同时也难以检测出经过精心伪装的AI生成评审。
核心思路:论文的核心思路是从关注文本风格转向关注文本内容。通过分析评审内容本身,判断其中是否存在AI参与的痕迹,从而提高检测的准确性和鲁棒性。这种方法避免了对风格特征的过度依赖,能够更好地应对释义攻击和人为修饰。
技术框架:论文提出了CoCoNUTS基准和CoCoDet检测器。CoCoNUTS是一个面向内容的基准数据集,包含了多种人机协作模式下生成的同行评审文本。CoCoDet是一个基于多任务学习框架的AI评审检测器,它利用CoCoNUTS数据集进行训练,能够更准确地检测评审内容中AI的参与程度。整体流程包括数据收集与标注、模型训练与评估、以及性能分析与优化。
关键创新:论文最重要的技术创新点在于提出了基于内容的AI生成评审检测方法。与以往基于风格的方法不同,该方法更加关注评审内容本身,能够更好地捕捉AI生成文本的本质特征。此外,CoCoNUTS基准的构建也为该领域的研究提供了宝贵的数据资源。
关键设计:CoCoDet检测器采用了多任务学习框架,同时学习多个与AI生成评审相关的任务,例如内容一致性、逻辑连贯性等。具体的损失函数设计和网络结构细节在论文中未详细说明,属于未知信息。数据集构建方面,论文细致地划分了六种人机协作模式,并对数据进行了高质量的标注。
🖼️ 关键图片
📊 实验亮点
论文构建了CoCoNUTS基准数据集,并提出了CoCoDet检测器。实验结果表明,CoCoDet在检测AI生成评审方面取得了显著的性能提升,能够有效区分AI辅助润色和完全由AI生成的内容。具体的性能数据和对比基线在摘要中未提及,属于未知信息。
🎯 应用场景
该研究成果可应用于学术出版领域,用于检测和防止AI生成的同行评审,维护学术评审的公平性和可靠性。此外,该方法也可以推广到其他需要鉴别AI生成内容的场景,例如新闻审核、社交媒体内容管理等,具有广泛的应用前景。
📄 摘要(原文)
The growing integration of large language models (LLMs) into the peer review process presents potential risks to the fairness and reliability of scholarly evaluation. While LLMs offer valuable assistance for reviewers with language refinement, there is growing concern over their use to generate substantive review content. Existing general AI-generated text detectors are vulnerable to paraphrasing attacks and struggle to distinguish between surface language refinement and substantial content generation, suggesting that they primarily rely on stylistic cues. When applied to peer review, this limitation can result in unfairly suspecting reviews with permissible AI-assisted language enhancement, while failing to catch deceptively humanized AI-generated reviews. To address this, we propose a paradigm shift from style-based to content-based detection. Specifically, we introduce CoCoNUTS, a content-oriented benchmark built upon a fine-grained dataset of AI-generated peer reviews, covering six distinct modes of human-AI collaboration. Furthermore, we develop CoCoDet, an AI review detector via a multi-task learning framework, designed to achieve more accurate and robust detection of AI involvement in review content. Our work offers a practical foundation for evaluating the use of LLMs in peer review, and contributes to the development of more precise, equitable, and reliable detection methods for real-world scholarly applications. Our code and data will be publicly available at https://github.com/Y1hanChen/COCONUTS.