Beyond Refusal: Probing the Limits of Agentic Self-Correction for Semantic Sensitive Information
作者: Umid Suleymanov, Zaur Rajabov, Emil Mirzazada, Murat Kantarcioglu
分类: cs.AI
发布日期: 2026-02-25
备注: Under Review
💡 一句话要点
提出SemSIEdit框架,通过Agentic自校正降低LLM语义敏感信息泄露风险。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 语义敏感信息 隐私保护 Agentic自校正 推理时防御
📋 核心要点
- 现有方法难以有效防御LLM中复杂的、上下文相关的语义敏感信息泄露问题。
- SemSIEdit框架通过引入一个agentic Editor,迭代地审查和重写敏感文本,以保持叙述的连贯性。
- 实验表明,SemSIEdit在降低语义敏感信息泄露的同时,尽可能地保持了模型的实用性。
📝 摘要(中文)
大型语言模型(LLMs)在处理结构化PII方面已经有成熟的防御机制,但语义敏感信息(SemSI)构成了一种新的威胁。SemSI指的是模型推断敏感身份属性、生成有损声誉的内容或产生潜在错误信息的能力。本文提出了SemSIEdit,一个推理时框架,其中一个agentic“Editor”迭代地评论和重写敏感跨度,以保持叙述流畅性,而不是简单地拒绝回答。分析表明,存在一个隐私-效用帕累托前沿,agentic重写在所有三个SemSI类别中将泄露降低了34.6%,同时仅造成9.8%的效用损失。此外,还发现了一种规模依赖的安全分歧:大型推理模型(例如GPT-5)通过建设性扩展(添加细微差别)来实现安全性,而容量受限的模型则恢复为破坏性截断(删除文本)。最后,发现了一个推理悖论:推理时推理增加了基线风险,因为它使模型能够进行更深入的敏感推断,但同时也使防御能够执行安全的重写。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)中存在的语义敏感信息(SemSI)泄露问题。现有方法,如简单的拒绝回答,虽然可以避免直接泄露,但会牺牲模型的实用性,并且无法处理模型通过上下文推断出的敏感信息。因此,需要一种更精细的控制方法,既能降低泄露风险,又能保持模型的生成能力。
核心思路:论文的核心思路是引入一个agentic“Editor”,该Editor在推理时对LLM生成的文本进行迭代审查和重写。Editor的目标是识别并修改可能泄露敏感信息的文本片段,同时尽可能保持原始文本的叙述流畅性和信息完整性。这种方法的核心在于不是简单地拒绝或删除,而是通过更细致的修改来平衡隐私和效用。
技术框架:SemSIEdit框架包含以下主要步骤:1) LLM生成初始文本;2) Editor识别文本中潜在的敏感信息片段;3) Editor对敏感片段进行重写,以降低泄露风险;4) 重写后的文本被反馈给LLM,进行下一轮生成或输出。这个过程迭代进行,直到满足预定的安全标准或达到最大迭代次数。Editor本身也是一个LLM,经过专门训练以识别和修改敏感信息。
关键创新:该论文的关键创新在于提出了agentic自校正的概念,即通过一个专门设计的Editor来迭代地审查和修改LLM的输出,而不是依赖于简单的拒绝回答或删除。这种方法能够更精细地控制敏感信息的泄露,同时保持模型的实用性。此外,论文还揭示了模型规模和推理能力对安全性的影响,以及推理时推理带来的风险和机遇。
关键设计:Editor的设计是关键。它需要具备识别敏感信息的能力,并能够生成既安全又流畅的替代文本。具体的实现细节包括:1) 使用特定的prompt工程来指导Editor的行为;2) 设计损失函数来平衡隐私和效用;3) 探索不同的模型规模和推理策略对Editor性能的影响。论文还研究了不同类型的敏感信息(如身份属性、声誉损害、错误信息)对Editor性能的影响。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SemSIEdit框架在所有三个SemSI类别中将语义敏感信息泄露降低了34.6%,同时仅造成9.8%的效用损失。此外,研究还发现,大型推理模型(如GPT-5)倾向于通过添加细微差别来实现安全性,而容量受限的模型则倾向于删除文本。这些发现为理解和改进LLM的安全性提供了有价值的见解。
🎯 应用场景
该研究成果可应用于各种需要处理敏感信息的LLM应用场景,例如:医疗健康、金融服务、法律咨询等。通过SemSIEdit框架,可以降低LLM在这些领域中泄露用户隐私或产生不当内容的风险,从而提高LLM的安全性、可靠性和用户信任度。该研究也为未来LLM安全防御技术的发展提供了新的思路。
📄 摘要(原文)
While defenses for structured PII are mature, Large Language Models (LLMs) pose a new threat: Semantic Sensitive Information (SemSI), where models infer sensitive identity attributes, generate reputation-harmful content, or hallucinate potentially wrong information. The capacity of LLMs to self-regulate these complex, context-dependent sensitive information leaks without destroying utility remains an open scientific question. To address this, we introduce SemSIEdit, an inference-time framework where an agentic "Editor" iteratively critiques and rewrites sensitive spans to preserve narrative flow rather than simply refusing to answer. Our analysis reveals a Privacy-Utility Pareto Frontier, where this agentic rewriting reduces leakage by 34.6% across all three SemSI categories while incurring a marginal utility loss of 9.8%. We also uncover a Scale-Dependent Safety Divergence: large reasoning models (e.g., GPT-5) achieve safety through constructive expansion (adding nuance), whereas capacity-constrained models revert to destructive truncation (deleting text). Finally, we identify a Reasoning Paradox: while inference-time reasoning increases baseline risk by enabling the model to make deeper sensitive inferences, it simultaneously empowers the defense to execute safe rewrites.