DSIPA: Detecting LLM-Generated Texts via Sentiment-Invariant Patterns Divergence Analysis
作者: Siyuan Li, Aodu Wulianghai, Guangyan Li, Xi Lin, Qinghua Mao, Yuliang Chen, Jun Wu, Jianhua Li
分类: cs.CL, cs.AI
发布日期: 2026-04-29
💡 一句话要点
提出DSIPA,通过情感不变模式差异分析检测LLM生成文本,无需训练。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM文本检测 情感分析 零样本学习 黑盒检测 对抗鲁棒性
📋 核心要点
- 现有LLM文本检测方法在对抗攻击、释义和跨领域泛化方面存在不足,且常依赖模型参数或大量标注数据。
- DSIPA通过量化风格变化下的情感分布稳定性来区分LLM和人类文本,利用情感一致性差异进行检测。
- 实验表明,DSIPA在多个领域和模型上显著提升了LLM生成文本的检测F1分数,最高达49.89%。
📝 摘要(中文)
大型语言模型(LLMs)的快速发展带来了新的安全挑战,尤其是在检测用于传播虚假信息、身份冒充和内容伪造的机器生成文本方面。现有的大多数检测方法在对抗扰动、释义攻击和领域迁移方面表现出鲁棒性不足,通常需要对模型参数进行限制性访问或使用大型标记数据集。为了解决这个问题,我们提出了DSIPA,这是一个新颖的免训练框架,通过量化受控风格变化下的情感分布稳定性来检测LLM生成的内容。它基于这样的观察:LLM通常表现出更情绪一致的输出,而人类撰写的文本则表现出更大的情感变化。我们的框架以零样本、黑盒的方式运行,利用两个无监督指标,即情感分布一致性和情感分布保持性,来捕捉这些内在的行为不对称性,而无需参数更新或概率访问。在包括GPT-5.2、Gemini-1.5-pro、Claude-3和LLaMa-3.3在内的最先进的专有和开源模型上进行了广泛的实验。在新闻文章、编程代码、学生论文、学术论文和社区评论等五个领域中的评估表明,DSIPA将F1检测分数提高了高达49.89%。该框架在各个领域表现出卓越的泛化能力和对对抗条件的强大抵抗力,为不断发展的LLM环境中的安全内容识别提供了稳健且可解释的行为信号。
🔬 方法详解
问题定义:当前LLM生成文本的检测方法容易受到对抗攻击和释义的影响,并且在不同领域之间的泛化能力较差。许多方法还需要访问模型的内部参数或依赖于大量的标注数据,这在实际应用中可能受到限制。因此,需要一种更鲁棒、更通用且无需训练数据的LLM生成文本检测方法。
核心思路:DSIPA的核心思路是利用LLM和人类在情感表达上的差异。LLM通常会生成情感更加一致的文本,而人类在写作时情感变化更加丰富。通过分析文本在不同风格变化下的情感分布稳定性,可以区分LLM生成文本和人类撰写文本。
技术框架:DSIPA框架主要包含以下几个步骤:1. 输入文本;2. 通过风格变换(例如,改变文本的情感倾向)生成多个变体;3. 使用情感分析工具计算原始文本和变体的情感分布;4. 计算情感分布一致性(Sentiment Distribution Consistency)和情感分布保持性(Sentiment Distribution Preservation)两个指标;5. 基于这两个指标判断文本是否由LLM生成。
关键创新:DSIPA的关键创新在于它是一种免训练的、黑盒的检测方法,不需要访问LLM的内部参数或使用标注数据。它通过分析情感分布的稳定性来捕捉LLM和人类文本之间的内在差异,从而实现鲁棒的检测。此外,该方法对对抗攻击和释义具有较强的抵抗能力。
关键设计:DSIPA的关键设计包括:1. 使用多种风格变换方法来生成文本变体,以确保情感分布的差异性;2. 选择合适的情感分析工具来准确计算文本的情感分布;3. 定义情感分布一致性和情感分布保持性两个指标,用于量化情感分布的稳定性。具体指标的计算方式未知,论文中可能包含更详细的公式或算法描述。
🖼️ 关键图片
📊 实验亮点
DSIPA在五个领域(新闻文章、编程代码、学生论文、学术论文和社区评论)的实验中,相较于基线方法,F1检测分数最高提升了49.89%。该框架在GPT-5.2、Gemini-1.5-pro、Claude-3和LLaMa-3.3等多种先进LLM上进行了评估,展现出卓越的泛化能力和对对抗条件的强大抵抗力。
🎯 应用场景
DSIPA可应用于内容安全、虚假信息检测、身份验证等领域。它可以帮助识别和过滤由LLM生成的恶意内容,防止其被用于传播谣言、进行网络诈骗或冒充他人身份。该研究有助于构建更安全、可信的网络环境,并为LLM技术的负责任使用提供保障。
📄 摘要(原文)
The rapid advancement of large language models (LLMs) presents new security challenges, particularly in detecting machine-generated text used for misinformation, impersonation, and content forgery. Most existing detection approaches struggle with robustness against adversarial perturbation, paraphrasing attacks, and domain shifts, often requiring restrictive access to model parameters or large labeled datasets. To address this, we propose DSIPA, a novel training-free framework that detects LLM-generated content by quantifying sentiment distributional stability under controlled stylistic variation. It is based on the observation that LLMs typically exhibit more emotionally consistent outputs, while human-written texts display greater affective variation. Our framework operates in a zero-shot, black-box manner, leveraging two unsupervised metrics, sentiment distribution consistency and sentiment distribution preservation, to capture these intrinsic behavioral asymmetries without the need for parameter updates or probability access. Extensive experiments are conducted on state-of-the-art proprietary and open-source models, including GPT-5.2, Gemini-1.5-pro, Claude-3, and LLaMa-3.3. Evaluations on five domains, such as news articles, programming code, student essays, academic papers, and community comments, demonstrate that DSIPA improves F1 detection scores by up to 49.89% over baseline methods. The framework exhibits superior generalizability across domains and strong resilience to adversarial conditions, providing a robust and interpretable behavioral signal for secure content identification in the evolving LLM landscape.