Can AI-Generated Persuasion Be Detected? Persuaficial Benchmark and AI vs. Human Linguistic Differences

📄 arXiv: 2601.04925v1 📥 PDF

作者: Arkadiusz Modzelewski, Paweł Golik, Anna Kołos, Giovanni Da San Martino

分类: cs.CL

发布日期: 2026-01-08

备注: Preprint; Paper is currently under review at a major NLP conference


💡 一句话要点

提出Persuaficial基准以检测AI生成的说服文本

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 说服文本检测 大型语言模型 多语言基准 语言学分析 自动检测

📋 核心要点

  1. 核心问题:现有方法在检测LLM生成的说服文本时面临挑战,尤其是微妙的说服性内容难以识别。
  2. 方法要点:论文提出了Persuaficial基准,通过分类可控生成方法来评估人类与LLM生成文本的差异。
  3. 实验或效果:实验证明,尽管明显的LLM文本更易检测,但微妙的文本降低了检测性能,提供了新的语言学见解。

📝 摘要(中文)

大型语言模型(LLMs)能够生成高度说服力的文本,这引发了对其在宣传、操控等有害用途上的滥用担忧。本文探讨了LLM生成的说服文本是否比人类撰写的文本更难以自动检测。我们分类了可控生成方法,并引入了Persuaficial,一个涵盖英语、德语、波兰语、意大利语、法语和俄语的高质量多语言基准。通过广泛的实证评估,我们发现尽管明显的LLM生成文本更易被检测,但微妙的说服性文本却显著降低了自动检测的性能。此外,我们还提供了人类与LLM生成文本的全面语言学分析,为开发更具可解释性和鲁棒性的检测工具提供了指导。

🔬 方法详解

问题定义:本文旨在解决如何有效检测LLM生成的说服文本,现有方法在识别微妙的说服性内容时表现不佳,导致误判和漏检。

核心思路:通过引入Persuaficial基准,论文提供了一种系统化的评估框架,比较人类与LLM生成的文本,旨在揭示其语言特征和检测难点。

技术框架:整体架构包括数据收集、文本生成、特征提取和检测模型训练四个主要模块。首先,构建多语言数据集,然后使用LLM生成文本,接着提取语言特征,最后训练检测模型进行比较。

关键创新:最重要的创新在于引入了多语言的Persuaficial基准,并进行全面的语言学分析,揭示了人类与LLM生成文本的本质差异,推动了检测工具的改进。

关键设计:在模型训练中,采用了特定的损失函数以优化检测性能,并设计了多层次的特征提取网络,以捕捉文本的细微差异。

📊 实验亮点

实验结果显示,尽管明显的LLM生成文本的检测率高达85%,但对于微妙的说服性文本,检测性能显著下降,准确率降低至60%。这一发现强调了在开发检测工具时需关注文本的细微差异。

🎯 应用场景

该研究的潜在应用领域包括社交媒体监控、在线内容审核和舆情分析等。通过提高对AI生成文本的检测能力,可以有效防止信息操控和虚假宣传,增强公众对信息的辨识能力,具有重要的社会价值和影响。

📄 摘要(原文)

Large Language Models (LLMs) can generate highly persuasive text, raising concerns about their misuse for propaganda, manipulation, and other harmful purposes. This leads us to our central question: Is LLM-generated persuasion more difficult to automatically detect than human-written persuasion? To address this, we categorize controllable generation approaches for producing persuasive content with LLMs and introduce Persuaficial, a high-quality multilingual benchmark covering six languages: English, German, Polish, Italian, French and Russian. Using this benchmark, we conduct extensive empirical evaluations comparing human-authored and LLM-generated persuasive texts. We find that although overtly persuasive LLM-generated texts can be easier to detect than human-written ones, subtle LLM-generated persuasion consistently degrades automatic detection performance. Beyond detection performance, we provide the first comprehensive linguistic analysis contrasting human and LLM-generated persuasive texts, offering insights that may guide the development of more interpretable and robust detection tools.