Explainable Disentangled Representation Learning for Generalizable Authorship Attribution in the Era of Generative AI

📄 arXiv: 2604.21300v1 📥 PDF

作者: Hieu Man, Van-Cuong Pham, Nghia Trung Ngo, Franck Dernoncourt, Thien Huu Nguyen

分类: cs.CL, cs.IR, cs.LG

发布日期: 2026-04-23

🔗 代码/项目: GITHUB | HUGGINGFACE


💡 一句话要点

提出EAVAE,通过可解释的解耦表示学习提升生成AI时代作者身份归属的泛化性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 作者身份归属 AI生成文本检测 解耦表示学习 变分自编码器 可解释性 对比学习 自然语言解释

📋 核心要点

  1. 现有作者身份归属方法易受内容-风格纠缠影响,导致模型泛化能力不足,无法有效区分作者风格与文本主题。
  2. EAVAE通过架构设计分离风格和内容编码器,并引入判别器生成自然语言解释,从而显式解耦风格与内容。
  3. 实验表明,EAVAE在作者身份归属和AI生成文本检测任务上均取得了显著提升,尤其在少样本学习中表现优异。

📝 摘要(中文)

学习作者风格的鲁棒表示对于作者身份归属和AI生成文本检测至关重要。然而,现有方法常常受困于内容-风格纠缠,模型学习到作者写作风格和主题之间的虚假相关性,导致跨领域泛化能力差。为了解决这个问题,我们提出了可解释的作者身份变分自编码器(EAVAE),这是一个通过架构分离设计显式地将风格从内容中解耦的新框架。EAVAE首先在多样化的作者身份数据上使用监督对比学习预训练风格编码器,然后使用变分自编码器(VAE)架构进行微调,该架构对风格和内容表示使用单独的编码器。通过一种新颖的判别器来强制解耦,该判别器不仅区分风格/内容表示对是否属于相同或不同的作者/内容来源,而且还为其决策生成自然语言解释,从而同时减轻混淆信息并增强可解释性。大量实验证明了EAVAE的有效性。在作者身份归属方面,我们在各种数据集(包括Amazon Reviews、PAN21和HRS)上实现了最先进的性能。对于AI生成文本检测,EAVAE在M4数据集上的少样本学习中表现出色。

🔬 方法详解

问题定义:论文旨在解决作者身份归属和AI生成文本检测中,现有方法因内容与风格纠缠而导致的泛化能力不足的问题。现有方法容易学习到作者风格与特定主题的虚假关联,导致在不同领域或数据集上表现不佳。

核心思路:论文的核心思路是通过显式地解耦内容和风格表示来解决上述问题。具体而言,通过设计一个包含独立风格和内容编码器的变分自编码器(VAE)架构,并引入一个能够生成自然语言解释的判别器,从而强制模型学习到解耦的表示。

技术框架:EAVAE框架包含以下几个主要模块:1) 风格编码器预训练阶段:使用监督对比学习在多样化的作者身份数据上预训练风格编码器。2) 变分自编码器(VAE)微调阶段:使用独立的风格和内容编码器,以及一个解码器来重建输入文本。3) 可解释判别器:用于区分风格/内容表示对是否属于同一作者/内容来源,并生成自然语言解释。

关键创新:论文的关键创新在于:1) 架构上的解耦设计,通过独立的风格和内容编码器显式地分离内容和风格表示。2) 可解释判别器的引入,不仅能够区分表示对的来源,还能生成自然语言解释,从而增强模型的可解释性和鲁棒性。3) 将监督对比学习应用于风格编码器的预训练,提升了风格表示的质量。

关键设计:风格编码器预训练阶段使用监督对比损失,鼓励同一作者的文本具有相似的风格表示,不同作者的文本具有不同的风格表示。VAE微调阶段使用标准的VAE损失函数,包括重建损失和KL散度损失。可解释判别器采用一个神经网络,输入为风格和内容表示,输出为二分类结果(是否属于同一来源)和自然语言解释。判别器的训练目标是最大化分类准确率,并生成合理的解释。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EAVAE在作者身份归属任务上,在Amazon Reviews、PAN21和HRS等数据集上取得了state-of-the-art的性能。在AI生成文本检测任务中,EAVAE在M4数据集上的少样本学习中表现出色,证明了其良好的泛化能力和在实际应用中的潜力。

🎯 应用场景

该研究成果可应用于数字取证、版权保护、社交媒体内容溯源、AI生成内容检测等领域。通过准确识别作者身份和检测AI生成文本,有助于打击网络欺诈、虚假信息传播等行为,维护网络安全和知识产权。

📄 摘要(原文)

Learning robust representations of authorial style is crucial for authorship attribution and AI-generated text detection. However, existing methods often struggle with content-style entanglement, where models learn spurious correlations between authors' writing styles and topics, leading to poor generalization across domains. To address this challenge, we propose Explainable Authorship Variational Autoencoder (EAVAE), a novel framework that explicitly disentangles style from content through architectural separation-by-design. EAVAE first pretrains style encoders using supervised contrastive learning on diverse authorship data, then finetunes with a Variational Autoencoder (VEA) architecture using separate encoders for style and content representations. Disentanglement is enforced through a novel discriminator that not only distinguishes whether pairs of style/content representations belong to the same or different authors/content sources, but also generates natural language explanation for their decision, simultaneously mitigating confounding information and enhancing interpretability. Extensive experiments demonstrate the effectiveness of EAVAE. On authorship attribution, we achieve state-of-the-art performance on various datasets, including Amazon Reviews, PAN21, and HRS. For AI-generated text detection, EAVAE excels in few-shot learning over the M4 dataset. Code and data repositories are available online\footnote{https://github.com/hieum98/avae} \footnote{https://huggingface.co/collections/Hieuman/document-level-authorship-datasets}.