Chain-of-Sanitized-Thoughts: Plugging PII Leakage in CoT of Large Reasoning Models
作者: Arghyadeep Das, Sai Sreenivas Chintha, Rishiraj Girmal, Kinjal Pandey, Sharvi Endait
分类: cs.AI
发布日期: 2026-01-08
备注: 12 pages, 6 figures, 1 table
💡 一句话要点
提出PII-CoT-Bench数据集,并利用prompt和微调方法减少CoT推理中PII泄露
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 隐私保护 思维链 大型推理模型 个人身份信息 prompt工程
📋 核心要点
- 大型推理模型在生成CoT时会泄露PII,即使最终答案经过清理,这带来了隐私风险。
- 论文提出PII-CoT-Bench数据集,并探索prompt工程和微调方法,以在推理过程中减少PII泄露。
- 实验表明,prompt工程对强模型有效,微调对弱模型有效,两者都能显著减少PII泄露,且效用损失最小。
📝 摘要(中文)
大型推理模型(LRMs)通过生成显式的思维链(CoT)推理来提高性能、可靠性和可解释性,但这种透明性引入了严重的隐私风险:即使最终答案经过清理,中间推理过程也经常泄露个人身份信息(PII)。本文研究如何诱导隐私优先的推理,即模型在不暴露敏感信息的情况下进行推理,使用可部署的干预措施而不是事后编辑。我们引入了PII-CoT-Bench,这是一个带有隐私感知CoT注释的监督数据集,以及一个涵盖现实和对抗性泄露场景的类别平衡评估基准。结果表明,存在一种能力依赖趋势:最先进的模型从基于prompt的控制中获益最多,而较弱的模型需要进行微调才能实现有意义的泄露减少。在各种模型和类别中,这两种方法都大大减少了PII暴露,同时对效用的影响最小,这表明可以在不牺牲性能的情况下实现私有推理。总的来说,我们表明,私有CoT推理可以在最小的效用损失下实现,为构建隐私保护推理系统提供了实践指导。
🔬 方法详解
问题定义:论文旨在解决大型推理模型(LRMs)在使用思维链(CoT)进行推理时,中间步骤泄露个人身份信息(PII)的问题。即使最终答案经过清理,CoT推理过程中的透明性仍然会暴露敏感信息。现有方法主要集中在事后编辑,而本文旨在探索在推理过程中主动避免PII泄露的方法。
核心思路:论文的核心思路是通过prompt工程和微调,使模型在生成CoT推理时,能够意识到隐私保护的重要性,从而避免生成包含PII的中间步骤。这种方法旨在从根本上解决问题,而不是依赖于事后的补救措施。
技术框架:论文的技术框架主要包括以下几个部分:1) 构建PII-CoT-Bench数据集,该数据集包含带有隐私感知CoT注释的样本。2) 使用prompt工程方法,设计包含隐私提示的prompt,引导模型生成不包含PII的CoT推理。3) 使用微调方法,在PII-CoT-Bench数据集上对模型进行微调,使其学习生成隐私保护的CoT推理。4) 使用类别平衡的评估基准,评估模型在现实和对抗性泄露场景下的性能。
关键创新:论文的关键创新在于:1) 提出了PII-CoT-Bench数据集,为研究隐私保护的CoT推理提供了基准。2) 探索了prompt工程和微调两种方法,用于在推理过程中减少PII泄露。3) 揭示了一种能力依赖趋势,即prompt工程对强模型有效,而微调对弱模型有效。与现有方法的本质区别在于,本文关注的是在推理过程中主动避免PII泄露,而不是依赖于事后的编辑。
关键设计:在prompt工程方面,论文设计了包含隐私提示的prompt,例如“在推理过程中,请避免提及任何个人身份信息”。在微调方面,论文使用交叉熵损失函数,优化模型生成隐私保护CoT推理的能力。数据集PII-CoT-Bench包含多种PII类别,并进行了类别平衡,以确保模型在各种PII类别上都能表现良好。
📊 实验亮点
实验结果表明,prompt工程和微调方法都能显著减少PII泄露,且效用损失最小。对于最先进的模型,prompt工程可以减少高达50%的PII泄露,而对于较弱的模型,微调可以实现类似的性能提升。在各种模型和类别中,这两种方法都优于基线方法。
🎯 应用场景
该研究成果可应用于各种需要使用大型推理模型进行决策的场景,例如医疗诊断、金融风控、法律咨询等。通过减少PII泄露,可以保护用户隐私,提高系统的安全性,并增强用户对系统的信任。未来,该研究可以扩展到其他类型的敏感信息,例如商业机密、知识产权等。
📄 摘要(原文)
Large Reasoning Models (LRMs) improve performance, reliability, and interpretability by generating explicit chain-of-thought (CoT) reasoning, but this transparency introduces a serious privacy risk: intermediate reasoning often leaks personally identifiable information (PII) even when final answers are sanitized. We study how to induce privacy-first reasoning, where models reason without exposing sensitive information, using deployable interventions rather than post-hoc redaction. We introduce PII-CoT-Bench, a supervised dataset with privacy-aware CoT annotations, and a category-balanced evaluation benchmark covering realistic and adversarial leakage scenarios. Our results reveal a capability-dependent trend: state-of-the-art models benefit most from prompt-based controls, whereas weaker models require fine-tuning to achieve meaningful leakage reduction. Across models and categories, both approaches substantially reduce PII exposure with minimal degradation in utility, demonstrating that private reasoning can be achieved without sacrificing performance. Overall, we show that private CoT reasoning can be achieved with minimal utility loss, providing practical guidance for building privacy-preserving reasoning systems.