Lightweight Stylistic Consistency Profiling: Robust Detection of LLM-Generated Textual Content for Multimedia Moderation

作者: Siyuan Li, Aodu Wulianghai, Xi Lin, Xibin Yuan, Qinghua Mao, Guangyan Li, Xiang Chen, Jun Wu, Jianhua Li

分类: cs.CL

发布日期: 2026-05-07

💡 一句话要点

提出LiSCP轻量级风格一致性分析方法，实现多媒体内容中LLM生成文本的鲁棒检测

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型检测 风格一致性分析 多媒体审核 对抗性鲁棒性 文本特征工程 跨域检测

📋 核心要点

现有检测器过度依赖统计特征或模型启发式规则，在面对文本改写和对抗性攻击时，表现出鲁棒性差、可解释性弱的局限。
提出LiSCP方法，通过构建离散风格特征与连续语义信号的一致性配置，利用多模态引导的文本改写变体来捕捉LLM生成的本质特征。
实验证明LiSCP在多媒体新闻与电影数据集上表现卓越，跨域检测性能提升11.79%，且在对抗性攻击及人机混合创作场景下具备极高鲁棒性。

📝 摘要（中文）

随着大语言模型（LLM）在内容创作中的普及，区分人类撰写与LLM生成的文本已成为多媒体审核的关键任务。现有检测器多依赖统计特征或特定模型的启发式规则，易受改写及对抗性操作影响，导致鲁棒性与可解释性不足。本文提出LiSCP，一种轻量级风格一致性分析方法，旨在通过关注对抗性操作下的特征稳定性，实现对LLM生成内容的鲁棒检测。该方法构建了一套结合离散风格特征与连续语义信号的一致性配置，利用多模态引导下的文本改写变体来评估风格稳定性。在真实多媒体新闻、电影数据集及常规文本领域的实验表明，LiSCP在域内检测中表现优异，在跨域场景下性能较现有方法提升高达11.79%，并在对抗攻击及人机混合创作场景中展现出显著的鲁棒性。

🔬 方法详解

问题定义：论文旨在解决多媒体审核中LLM生成文本的检测难题。现有方法主要依赖于统计学特征（如困惑度）或特定模型的启发式规则，这些方法在面对同义词替换、重写等对抗性操作时极易失效，导致检测器在真实复杂场景下的泛化能力和鲁棒性严重不足。

核心思路：LiSCP的核心思想是利用LLM生成文本在不同改写变体下表现出的“风格一致性”。通过构建一个包含离散风格特征（如词汇分布、句法结构）与连续语义信号的配置，捕捉LLM在生成过程中留下的稳定指纹，从而抵御针对特定统计特征的对抗性攻击。

技术框架：该方法首先通过多模态引导生成文本的多个改写变体，随后提取这些变体的风格特征，构建一致性配置（Consistency Profile）。通过对比原始文本与改写变体之间的特征稳定性，利用分类器判断文本来源。整体流程包含特征提取、一致性建模与鲁棒分类三个阶段。

关键创新：最重要的创新在于将“风格一致性”作为检测核心，而非单一的统计指标。通过引入多模态引导的改写变体，LiSCP能够剥离文本表面的语义噪声，提取出LLM生成过程中固有的、难以通过简单改写消除的风格稳定性特征。

关键设计：关键设计在于离散风格特征与连续语义信号的融合机制。该方法通过量化文本在改写过程中的特征漂移程度，构建鲁棒的特征空间。在损失函数设计上，重点优化了对风格一致性特征的敏感度，确保模型在面对人机混合创作等复杂分布时仍能保持高判别力。

🖼️ 关键图片

📊 实验亮点

LiSCP在多项基准测试中表现出色，特别是在跨域检测任务中，性能较现有主流方法提升了11.79%。实验结果显示，该方法在面对对抗性攻击、同义词替换及人机混合创作等复杂场景时，依然保持了极高的检测准确率，证明了其在实际多媒体审核任务中的卓越鲁棒性。

🎯 应用场景

该研究主要应用于多媒体内容审核平台、社交媒体舆情监控及学术诚信检测系统。通过提供一种鲁棒的LLM生成内容识别方案，能够有效过滤虚假信息、防止自动化垃圾内容泛滥，并为维护多媒体生态的真实性与可信度提供技术支撑。

📄 摘要（原文）

The increasing prevalence of Large Language Models (LLMs) in content creation has made distinguishing human-written textual content from LLM-generated counterparts a critical task for multimedia moderation. Existing detectors often rely on statistical cues or model-specific heuristics, making them vulnerable to paraphrasing and adversarial manipulations, and consequently limiting their robustness and interpretability. In this work, we proposeLiSCP , a novel lightweight stylistic consistency profiling method for robust detection of LLM-generated textual content, focusing on feature stability under adversarial manipulation. Our approach constructs a consistency profile that combines discrete stylistic features with continuous semantic signals, leveraging stylistic stability across multimodal-guided paraphrased text variants. Experiments spanning real-world multimedia news and movie datasets and conventional text domains demonstrate that LiSCP achieves superior performance on in-domain detection and outperforms existing approaches by up to 11.79% in cross-domain settings. Additionally,it demonstrates notable robustness under adversarial scenarios, including adversarial attacks and hybrid human-AI settings.

Lightweight Stylistic Consistency Profiling: Robust Detection of LLM-Generated Textual Content for Multimedia Moderation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理