Lightweight Stylistic Consistency Profiling: Robust Detection of LLM-Generated Textual Content for Multimedia Moderation
作者: Siyuan Li, Aodu Wulianghai, Xi Lin, Xibin Yuan, Qinghua Mao, Guangyan Li, Xiang Chen, Jun Wu, Jianhua Li
分类: cs.CL
发布日期: 2026-05-07
💡 一句话要点
提出LiSCP轻量级风格一致性分析方法,实现多媒体内容中LLM生成文本的鲁棒检测
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型检测 风格一致性分析 多媒体审核 对抗性鲁棒性 文本特征工程 跨域检测
📋 核心要点
- 现有检测器过度依赖统计特征或模型启发式规则,在面对文本改写和对抗性攻击时,表现出鲁棒性差、可解释性弱的局限。
- 提出LiSCP方法,通过构建离散风格特征与连续语义信号的一致性配置,利用多模态引导的文本改写变体来捕捉LLM生成的本质特征。
- 实验证明LiSCP在多媒体新闻与电影数据集上表现卓越,跨域检测性能提升11.79%,且在对抗性攻击及人机混合创作场景下具备极高鲁棒性。
📝 摘要(中文)
随着大语言模型(LLM)在内容创作中的普及,区分人类撰写与LLM生成的文本已成为多媒体审核的关键任务。现有检测器多依赖统计特征或特定模型的启发式规则,易受改写及对抗性操作影响,导致鲁棒性与可解释性不足。本文提出LiSCP,一种轻量级风格一致性分析方法,旨在通过关注对抗性操作下的特征稳定性,实现对LLM生成内容的鲁棒检测。该方法构建了一套结合离散风格特征与连续语义信号的一致性配置,利用多模态引导下的文本改写变体来评估风格稳定性。在真实多媒体新闻、电影数据集及常规文本领域的实验表明,LiSCP在域内检测中表现优异,在跨域场景下性能较现有方法提升高达11.79%,并在对抗攻击及人机混合创作场景中展现出显著的鲁棒性。
🔬 方法详解
问题定义:论文旨在解决多媒体审核中LLM生成文本的检测难题。现有方法主要依赖于统计学特征(如困惑度)或特定模型的启发式规则,这些方法在面对同义词替换、重写等对抗性操作时极易失效,导致检测器在真实复杂场景下的泛化能力和鲁棒性严重不足。
核心思路:LiSCP的核心思想是利用LLM生成文本在不同改写变体下表现出的“风格一致性”。通过构建一个包含离散风格特征(如词汇分布、句法结构)与连续语义信号的配置,捕捉LLM在生成过程中留下的稳定指纹,从而抵御针对特定统计特征的对抗性攻击。
技术框架:该方法首先通过多模态引导生成文本的多个改写变体,随后提取这些变体的风格特征,构建一致性配置(Consistency Profile)。通过对比原始文本与改写变体之间的特征稳定性,利用分类器判断文本来源。整体流程包含特征提取、一致性建模与鲁棒分类三个阶段。
关键创新:最重要的创新在于将“风格一致性”作为检测核心,而非单一的统计指标。通过引入多模态引导的改写变体,LiSCP能够剥离文本表面的语义噪声,提取出LLM生成过程中固有的、难以通过简单改写消除的风格稳定性特征。
关键设计:关键设计在于离散风格特征与连续语义信号的融合机制。该方法通过量化文本在改写过程中的特征漂移程度,构建鲁棒的特征空间。在损失函数设计上,重点优化了对风格一致性特征的敏感度,确保模型在面对人机混合创作等复杂分布时仍能保持高判别力。
🖼️ 关键图片
📊 实验亮点
LiSCP在多项基准测试中表现出色,特别是在跨域检测任务中,性能较现有主流方法提升了11.79%。实验结果显示,该方法在面对对抗性攻击、同义词替换及人机混合创作等复杂场景时,依然保持了极高的检测准确率,证明了其在实际多媒体审核任务中的卓越鲁棒性。
🎯 应用场景
该研究主要应用于多媒体内容审核平台、社交媒体舆情监控及学术诚信检测系统。通过提供一种鲁棒的LLM生成内容识别方案,能够有效过滤虚假信息、防止自动化垃圾内容泛滥,并为维护多媒体生态的真实性与可信度提供技术支撑。
📄 摘要(原文)
The increasing prevalence of Large Language Models (LLMs) in content creation has made distinguishing human-written textual content from LLM-generated counterparts a critical task for multimedia moderation. Existing detectors often rely on statistical cues or model-specific heuristics, making them vulnerable to paraphrasing and adversarial manipulations, and consequently limiting their robustness and interpretability. In this work, we proposeLiSCP , a novel lightweight stylistic consistency profiling method for robust detection of LLM-generated textual content, focusing on feature stability under adversarial manipulation. Our approach constructs a consistency profile that combines discrete stylistic features with continuous semantic signals, leveraging stylistic stability across multimodal-guided paraphrased text variants. Experiments spanning real-world multimedia news and movie datasets and conventional text domains demonstrate that LiSCP achieves superior performance on in-domain detection and outperforms existing approaches by up to 11.79% in cross-domain settings. Additionally,it demonstrates notable robustness under adversarial scenarios, including adversarial attacks and hybrid human-AI settings.