When New Generators Arrive: Lifelong Machine-Generated Text Attribution via Ridge Feature Transfer

📄 arXiv: 2606.05626v1 📥 PDF

作者: Zhen Sun, Yifan Liao, Zhicong Huang, Jiaheng Wei, Cheng Hong, Yutao Yue, Xinlei He

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-06-04

备注: 12 pages


💡 一句话要点

提出RidgeFT以解决长期机器生成文本归属问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器生成文本 文本归属 长期学习 岭回归 模型问责 协方差校准 特征转移

📋 核心要点

  1. 现有方法在长期机器生成文本归属中面临适应新生成器与保留旧生成器之间的平衡挑战。
  2. 本文提出RidgeFT框架,通过任务感知编码器和闭式岭回归实现无重放的更新,提升归属能力。
  3. 实验结果表明,RidgeFT在多主题评估中表现优异,宏F1分数最佳,同时提高了旧类别的保留率和新类别的适应性。

📝 摘要(中文)

机器生成文本(MGT)归属旨在识别特定文本的生成者,从而为模型问责和滥用调查提供细致证据。随着新大型语言模型的不断出现,归属模型必须持续整合新生成器,同时保持对先前生成器的识别能力。现有方法在适应新类别与保留旧类别之间难以实现稳定平衡。为此,本文提出了一种轻量级的分析更新框架RidgeFT,该框架不依赖于示例重放。RidgeFT在初始生成器集上训练任务感知编码器,存储每个生成器类别首次观察时的紧凑类别统计信息,然后冻结编码器进行无重放的闭式更新。通过协方差校准抑制与生成器无关的变化,利用固定随机特征提高表示能力,并通过基于类别统计的闭式岭回归更新新类别。RidgeFT在多主题评估中持续超越基线,显示出在各领域、骨干网络和增量协议下的最佳宏F1分数,同时改善了旧类别的保留和新类别的适应能力。

🔬 方法详解

问题定义:本文解决长期机器生成文本归属问题,现有方法在适应新生成器时常常无法有效保留对旧生成器的识别能力,导致归属性能下降。

核心思路:RidgeFT框架通过训练任务感知编码器并存储类别统计信息,采用无重放的闭式更新方式,旨在提高归属模型的稳定性与适应性。

技术框架:RidgeFT的整体架构包括三个主要模块:首先,训练任务感知编码器;其次,存储每个生成器类别的统计信息;最后,通过闭式岭回归进行新类别的更新。

关键创新:RidgeFT的核心创新在于其无重放的闭式更新机制,利用固定随机特征和协方差校准来提升模型的表示能力,与现有方法相比,显著提高了长期归属的稳定性。

关键设计:在设计中,RidgeFT使用了紧凑的类别统计信息作为更新依据,并通过岭回归优化损失函数,确保新旧类别的有效平衡。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

RidgeFT在多主题评估中表现出色,宏F1分数在各领域和增量协议下均达到最佳,显著提升了旧类别的保留率和新类别的适应能力,展示了其在长期机器生成文本归属中的有效性。

🎯 应用场景

该研究的潜在应用领域包括文本生成监控、内容审核和模型问责等。随着生成模型的广泛应用,RidgeFT能够为识别生成文本的来源提供有效支持,帮助防范模型滥用和确保生成内容的透明性。未来,该方法可能在多种文本生成场景中发挥重要作用,促进生成技术的安全使用。

📄 摘要(原文)

Machine-generated text (MGT) attribution aims to identify the specific generator responsible for a given text, thereby providing fine-grained evidence for model accountability and misuse investigation. As new large language models continue to emerge, attribution models must continuously incorporate new generators while preserving their ability to recognize previously seen ones. Prior works have shown that this lifelong MGT attribution setting is challenging, and existing methods often struggle to achieve a stable balance between adapting to new classes and retaining old ones. To address this issue, we propose RidgeFT, a lightweight analytic update framework that does not rely on exemplar replay. RidgeFT trains a task-aware encoder on the initial generator set, stores compact class-wise sufficient statistics when each generator class is first observed, and then freezes the encoder for replay-free closed-form updates. It then suppresses generator-irrelevant variation through covariance calibration, improves representation capacity with fixed random features, and updates new classes through closed-form ridge regression based on class-level sufficient statistics. Across multi-topic evaluations with varying initial generator setups, RidgeFT consistently outperforms baselines. It achieves the best macro-F1 across domains, backbones, and incremental protocols, while also improving both old-class retention and new-class adaptation. These results suggest that feature-stable analytic updates provide a simple yet effective approach to lifelong MGT attribution.