Chain-of-Sanitized-Thoughts: Plugging PII Leakage in CoT of Large Reasoning Models

📄 arXiv: 2601.05076v1 📥 PDF

作者: Arghyadeep Das, Sai Sreenivas Chintha, Rishiraj Girmal, Kinjal Pandey, Sharvi Endait

分类: cs.AI

发布日期: 2026-01-08

备注: 12 pages, 6 figures, 1 table


💡 一句话要点

提出PII-CoT-Bench,通过prompt和微调提升大模型CoT推理的隐私性,减少PII泄露。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 隐私保护 思维链推理 大型语言模型 个人身份信息 prompt工程

📋 核心要点

  1. 大型推理模型的思维链(CoT)推理过程透明,但中间步骤容易泄露个人身份信息(PII),带来隐私风险。
  2. 论文提出PII-CoT-Bench数据集,并探索prompt工程和微调两种方法,引导模型在推理过程中避免暴露敏感信息。
  3. 实验表明,prompt工程适用于强模型,微调适用于弱模型,两种方法都能有效降低PII泄露,同时保持模型性能。

📝 摘要(中文)

大型推理模型(LRMs)通过生成显式的思维链(CoT)推理来提高性能、可靠性和可解释性,但这种透明性引入了严重的隐私风险:即使最终答案经过处理,中间推理也经常泄露个人身份信息(PII)。本文研究如何诱导隐私优先的推理,即模型在不暴露敏感信息的情况下进行推理,使用可部署的干预措施而不是事后编辑。我们引入了PII-CoT-Bench,这是一个带有隐私感知CoT注释的监督数据集,以及一个涵盖现实和对抗性泄露场景的类别平衡评估基准。结果表明,存在一种能力依赖趋势:最先进的模型从基于prompt的控制中获益最多,而较弱的模型需要进行微调才能实现有意义的泄露减少。在各种模型和类别中,这两种方法都大大减少了PII暴露,同时对效用的影响最小,这表明可以在不牺牲性能的情况下实现私有推理。总的来说,我们表明,私有CoT推理可以在效用损失最小的情况下实现,为构建隐私保护推理系统提供了实践指导。

🔬 方法详解

问题定义:论文旨在解决大型推理模型(LRMs)在使用思维链(CoT)推理时,中间步骤泄露个人身份信息(PII)的问题。现有方法通常采用事后编辑(post-hoc redaction),但这种方法可能影响推理的准确性,且无法从根本上解决隐私泄露问题。因此,需要一种在推理过程中就避免PII泄露的方法。

核心思路:论文的核心思路是诱导模型进行隐私优先的推理,即在生成CoT推理链时,避免暴露敏感信息。为此,论文探索了两种方法:prompt工程和微调。Prompt工程通过设计特定的prompt来引导模型进行隐私保护的推理。微调则通过在带有隐私感知CoT注释的数据集上训练模型,使其学习到隐私保护的推理模式。

技术框架:论文的技术框架主要包括以下几个部分:1) PII-CoT-Bench数据集的构建,该数据集包含带有隐私感知CoT注释的样本,用于训练和评估模型。2) 基于prompt的控制方法,通过设计特定的prompt来引导模型进行隐私保护的推理。3) 基于微调的方法,通过在PII-CoT-Bench数据集上训练模型,使其学习到隐私保护的推理模式。4) 评估基准,用于评估模型在现实和对抗性泄露场景下的隐私保护能力。

关键创新:论文的关键创新在于:1) 提出了PII-CoT-Bench数据集,这是一个专门用于评估和训练隐私保护CoT推理模型的数据集。2) 探索了prompt工程和微调两种方法,用于诱导模型进行隐私优先的推理。3) 揭示了一种能力依赖趋势,即最先进的模型更适合使用prompt工程,而较弱的模型更适合使用微调。与现有方法的本质区别在于,论文的方法不是事后编辑,而是在推理过程中就避免PII泄露。

关键设计:PII-CoT-Bench数据集包含多个类别,并针对每个类别设计了现实和对抗性泄露场景。Prompt工程的关键在于设计能够引导模型进行隐私保护推理的prompt。微调的关键在于选择合适的模型和训练策略,以避免过拟合。论文没有详细说明具体的参数设置、损失函数或网络结构,但强调了在PII-CoT-Bench数据集上进行训练的重要性。

📊 实验亮点

实验结果表明,prompt工程和微调两种方法都能有效降低PII泄露,同时对模型性能的影响很小。对于最先进的模型,prompt工程可以显著降低PII泄露,而对于较弱的模型,微调可以实现有意义的泄露减少。在各种模型和类别中,两种方法都可以在保持模型效用的前提下,显著提高隐私保护能力。

🎯 应用场景

该研究成果可应用于各种需要使用大型推理模型进行决策的场景,例如医疗诊断、金融风控、法律咨询等。通过确保推理过程的隐私性,可以保护用户的个人信息,避免潜在的隐私泄露风险,从而提高用户对AI系统的信任度,促进AI技术的广泛应用。

📄 摘要(原文)

Large Reasoning Models (LRMs) improve performance, reliability, and interpretability by generating explicit chain-of-thought (CoT) reasoning, but this transparency introduces a serious privacy risk: intermediate reasoning often leaks personally identifiable information (PII) even when final answers are sanitized. We study how to induce privacy-first reasoning, where models reason without exposing sensitive information, using deployable interventions rather than post-hoc redaction. We introduce PII-CoT-Bench, a supervised dataset with privacy-aware CoT annotations, and a category-balanced evaluation benchmark covering realistic and adversarial leakage scenarios. Our results reveal a capability-dependent trend: state-of-the-art models benefit most from prompt-based controls, whereas weaker models require fine-tuning to achieve meaningful leakage reduction. Across models and categories, both approaches substantially reduce PII exposure with minimal degradation in utility, demonstrating that private reasoning can be achieved without sacrificing performance. Overall, we show that private CoT reasoning can be achieved with minimal utility loss, providing practical guidance for building privacy-preserving reasoning systems.