Assessing Deanonymization Risks with Stylometry-Assisted LLM Agent

📄 arXiv: 2602.23079v1 📥 PDF

作者: Boyang Zhang, Yang Zhang

分类: cs.CL, cs.CR, cs.LG

发布日期: 2026-02-26


💡 一句话要点

提出SALA方法,利用文体学特征辅助LLM代理评估和降低文本数据中的去匿名化风险。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 去匿名化风险 文体学分析 作者身份推断 隐私保护

📋 核心要点

  1. 现有方法难以有效评估和降低LLM带来的文本数据去匿名化风险,缺乏结构化和可解释性。
  2. 提出SALA方法,结合文体学特征与LLM推理,实现鲁棒且透明的作者身份归属,降低去匿名化风险。
  3. 实验表明,SALA方法在大型新闻数据集上表现出高推理精度,并通过引导重构有效降低作者身份可识别性。

📝 摘要(中文)

大型语言模型(LLMs)的快速发展增强了作者身份推断能力,引发了对新闻文章等文本数据中意外去匿名化风险的担忧。本文介绍了一种LLM代理,旨在通过结构化、可解释的流程来评估和降低此类风险。该框架的核心是提出的$ extit{SALA}$(Stylometry-Assisted LLM Analysis)方法,该方法将定量文体学特征与LLM推理相结合,以实现鲁棒且透明的作者身份归属。在大型新闻数据集上的实验表明,$ extit{SALA}$,特别是在使用数据库模块增强时,在各种场景中实现了高推理精度。最后,我们提出了一种引导重构策略,该策略利用代理的推理轨迹来生成重写提示,从而有效地降低了作者身份的可识别性,同时保留了文本含义。我们的研究结果突出了LLM代理的去匿名化潜力,以及可解释的、主动防御措施对于保护作者隐私的重要性。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在文本数据中造成的作者身份去匿名化风险评估问题。现有方法在评估和降低这种风险时,缺乏结构化流程和可解释性,难以有效应对LLM强大的作者身份推断能力。

核心思路:论文的核心思路是将定量文体学特征与LLM的推理能力相结合,构建一个可解释的作者身份归属框架。通过文体学特征的引入,增强了LLM在作者身份推断方面的鲁棒性和透明度,从而更准确地评估和降低去匿名化风险。

技术框架:论文提出的框架包含以下主要模块:1) 文体学特征提取模块,用于提取文本的定量文体学特征;2) LLM推理模块,利用LLM进行作者身份推断;3) SALA(Stylometry-Assisted LLM Analysis)模块,将文体学特征与LLM推理结果相结合,进行综合分析;4) 数据库模块(可选),用于存储和检索作者信息;5) 引导重构模块,生成重写提示,降低作者身份可识别性。

关键创新:论文最重要的技术创新点在于SALA方法,它将传统的文体学分析与现代LLM技术相结合,实现了作者身份归属的透明性和可解释性。与单纯依赖LLM的方法相比,SALA方法能够更好地利用文本的固有特征,提高作者身份推断的准确性和鲁棒性。

关键设计:SALA方法的关键设计包括:1) 选择合适的文体学特征,例如词汇多样性、句子长度、标点符号使用等;2) 设计有效的LLM推理提示,引导LLM进行作者身份推断;3) 设计合理的融合策略,将文体学特征与LLM推理结果相结合;4) 引导重构模块利用LLM的推理轨迹生成重写提示,以降低作者身份的可识别性。具体的参数设置、损失函数和网络结构等技术细节在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,SALA方法在大型新闻数据集上取得了较高的作者身份推断准确率,尤其是在与数据库模块结合使用时。通过引导重构策略,SALA方法能够有效降低作者身份的可识别性,同时保持文本的语义信息。

🎯 应用场景

该研究成果可应用于新闻媒体、社交平台等领域,用于评估和降低用户发布内容的去匿名化风险,保护作者隐私。此外,该方法还可以用于版权保护、内容溯源等场景,具有重要的实际应用价值和潜在的社会影响。

📄 摘要(原文)

The rapid advancement of large language models (LLMs) has enabled powerful authorship inference capabilities, raising growing concerns about unintended deanonymization risks in textual data such as news articles. In this work, we introduce an LLM agent designed to evaluate and mitigate such risks through a structured, interpretable pipeline. Central to our framework is the proposed $\textit{SALA}$ (Stylometry-Assisted LLM Analysis) method, which integrates quantitative stylometric features with LLM reasoning for robust and transparent authorship attribution. Experiments on large-scale news datasets demonstrate that $\textit{SALA}$, particularly when augmented with a database module, achieves high inference accuracy in various scenarios. Finally, we propose a guided recomposition strategy that leverages the agent's reasoning trace to generate rewriting prompts, effectively reducing authorship identifiability while preserving textual meaning. Our findings highlight both the deanonymization potential of LLM agents and the importance of interpretable, proactive defenses for safeguarding author privacy.