Beyond Refusal: Probing the Limits of Agentic Self-Correction for Semantic Sensitive Information

作者: Umid Suleymanov, Zaur Rajabov, Emil Mirzazada, Murat Kantarcioglu

分类: cs.AI

发布日期: 2026-02-25

备注: Under Review

💡 一句话要点

提出SemSIEdit框架，通过Agentic自校正降低LLM语义敏感信息泄露风险。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 语义敏感信息 隐私保护 Agentic自校正 推理时防御

📋 核心要点

现有方法难以有效防御LLM中复杂的、上下文相关的语义敏感信息泄露问题。
SemSIEdit框架通过引入一个agentic Editor，迭代地审查和重写敏感文本，以保持叙述的连贯性。
实验表明，SemSIEdit在降低语义敏感信息泄露的同时，尽可能地保持了模型的实用性。

📝 摘要（中文）

大型语言模型（LLMs）在处理结构化PII方面已经有成熟的防御机制，但语义敏感信息（SemSI）构成了一种新的威胁。SemSI指的是模型推断敏感身份属性、生成有损声誉的内容或产生潜在错误信息的能力。本文提出了SemSIEdit，一个推理时框架，其中一个agentic“Editor”迭代地评论和重写敏感跨度，以保持叙述流畅性，而不是简单地拒绝回答。分析表明，存在一个隐私-效用帕累托前沿，agentic重写在所有三个SemSI类别中将泄露降低了34.6%，同时仅造成9.8%的效用损失。此外，还发现了一种规模依赖的安全分歧：大型推理模型（例如GPT-5）通过建设性扩展（添加细微差别）来实现安全性，而容量受限的模型则恢复为破坏性截断（删除文本）。最后，发现了一个推理悖论：推理时推理增加了基线风险，因为它使模型能够进行更深入的敏感推断，但同时也使防御能够执行安全的重写。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLMs）中存在的语义敏感信息（SemSI）泄露问题。现有方法，如简单的拒绝回答，虽然可以避免直接泄露，但会牺牲模型的实用性，并且无法处理模型通过上下文推断出的敏感信息。因此，需要一种更精细的控制方法，既能降低泄露风险，又能保持模型的生成能力。

核心思路：论文的核心思路是引入一个agentic“Editor”，该Editor在推理时对LLM生成的文本进行迭代审查和重写。Editor的目标是识别并修改可能泄露敏感信息的文本片段，同时尽可能保持原始文本的叙述流畅性和信息完整性。这种方法的核心在于不是简单地拒绝或删除，而是通过更细致的修改来平衡隐私和效用。

技术框架：SemSIEdit框架包含以下主要步骤：1) LLM生成初始文本；2) Editor识别文本中潜在的敏感信息片段；3) Editor对敏感片段进行重写，以降低泄露风险；4) 重写后的文本被反馈给LLM，进行下一轮生成或输出。这个过程迭代进行，直到满足预定的安全标准或达到最大迭代次数。Editor本身也是一个LLM，经过专门训练以识别和修改敏感信息。

关键创新：该论文的关键创新在于提出了agentic自校正的概念，即通过一个专门设计的Editor来迭代地审查和修改LLM的输出，而不是依赖于简单的拒绝回答或删除。这种方法能够更精细地控制敏感信息的泄露，同时保持模型的实用性。此外，论文还揭示了模型规模和推理能力对安全性的影响，以及推理时推理带来的风险和机遇。

关键设计：Editor的设计是关键。它需要具备识别敏感信息的能力，并能够生成既安全又流畅的替代文本。具体的实现细节包括：1) 使用特定的prompt工程来指导Editor的行为；2) 设计损失函数来平衡隐私和效用；3) 探索不同的模型规模和推理策略对Editor性能的影响。论文还研究了不同类型的敏感信息（如身份属性、声誉损害、错误信息）对Editor性能的影响。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SemSIEdit框架在所有三个SemSI类别中将语义敏感信息泄露降低了34.6%，同时仅造成9.8%的效用损失。此外，研究还发现，大型推理模型（如GPT-5）倾向于通过添加细微差别来实现安全性，而容量受限的模型则倾向于删除文本。这些发现为理解和改进LLM的安全性提供了有价值的见解。

🎯 应用场景

该研究成果可应用于各种需要处理敏感信息的LLM应用场景，例如：医疗健康、金融服务、法律咨询等。通过SemSIEdit框架，可以降低LLM在这些领域中泄露用户隐私或产生不当内容的风险，从而提高LLM的安全性、可靠性和用户信任度。该研究也为未来LLM安全防御技术的发展提供了新的思路。

📄 摘要（原文）

While defenses for structured PII are mature, Large Language Models (LLMs) pose a new threat: Semantic Sensitive Information (SemSI), where models infer sensitive identity attributes, generate reputation-harmful content, or hallucinate potentially wrong information. The capacity of LLMs to self-regulate these complex, context-dependent sensitive information leaks without destroying utility remains an open scientific question. To address this, we introduce SemSIEdit, an inference-time framework where an agentic "Editor" iteratively critiques and rewrites sensitive spans to preserve narrative flow rather than simply refusing to answer. Our analysis reveals a Privacy-Utility Pareto Frontier, where this agentic rewriting reduces leakage by 34.6% across all three SemSI categories while incurring a marginal utility loss of 9.8%. We also uncover a Scale-Dependent Safety Divergence: large reasoning models (e.g., GPT-5) achieve safety through constructive expansion (adding nuance), whereas capacity-constrained models revert to destructive truncation (deleting text). Finally, we identify a Reasoning Paradox: while inference-time reasoning increases baseline risk by enabling the model to make deeper sensitive inferences, it simultaneously empowers the defense to execute safe rewrites.

Beyond Refusal: Probing the Limits of Agentic Self-Correction for Semantic Sensitive Information

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理