Controllable Reasoning Models Are Private Thinkers
作者: Haritz Puerto, Haonan Li, Xudong Han, Timothy Baldwin, Iryna Gurevych
分类: cs.CL, cs.AI
发布日期: 2026-02-27
🔗 代码/项目: GITHUB
💡 一句话要点
提出可控推理模型以提升AI Agent的隐私保护能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 可控推理 隐私保护 指令遵循 LoRA适配器 AI Agent
📋 核心要点
- 现有AI Agent的推理过程难以控制,存在用户隐私泄露的风险,是当前面临的核心问题。
- 通过训练模型在推理过程中遵循指令,并引入LoRA适配器解耦推理和答案生成,提升隐私保护能力。
- 实验结果表明,该方法在指令遵循和隐私保护方面均有显著提升,但可能牺牲一定的任务效用。
📝 摘要(中文)
基于推理模型的AI Agent需要访问敏感的用户数据。然而,它们的推理过程难以控制,可能导致私有信息意外泄露给外部。本文提出训练模型不仅在最终答案上,而且在推理过程中都遵循指令,并可能受到不同约束。我们假设,提高模型在推理过程中的指令遵循能力可以增强其隐私保护能力。为了验证这一点,我们在一个新的指令遵循数据集上微调模型,该数据集对推理过程有明确的限制。我们进一步引入了一种生成策略,使用单独的LoRA适配器解耦推理和答案生成。我们在来自两个模型系列的六个模型(参数量从1.7B到14B)上,在两个指令遵循基准和两个隐私基准上评估了我们的方法。我们的方法取得了显著的改进,在指令遵循性能上获得了高达20.9个点的提升,在隐私基准上获得了高达51.9个百分点的提升。然而,这些改进可能会以任务效用为代价,因为推理性能和指令遵循能力之间存在权衡。总的来说,我们的结果表明,提高推理模型中的指令遵循行为可以显著增强隐私,这为未来隐私感知Agent的开发提供了一个有希望的方向。我们的代码和数据可在https://github.com/UKPLab/arxiv2026-controllable-reasoning-models获得。
🔬 方法详解
问题定义:论文旨在解决AI Agent在推理过程中可能泄露用户隐私的问题。现有方法缺乏对推理过程的有效控制,使得敏感信息容易暴露。因此,如何设计一种可控的推理模型,在保证任务性能的同时,最大限度地保护用户隐私,是本文要解决的核心问题。
核心思路:论文的核心思路是提高模型在推理过程中的指令遵循能力。通过让模型在生成推理步骤时也遵循预设的指令和约束,可以有效地控制推理过程,避免泄露敏感信息。同时,论文还提出解耦推理和答案生成,以便更精细地控制推理过程。
技术框架:整体框架包含两个主要阶段:指令遵循微调和解耦生成。首先,使用包含推理过程约束的指令遵循数据集对模型进行微调,使其具备在推理过程中遵循指令的能力。然后,使用单独的LoRA适配器分别控制推理和答案生成过程,实现更精细的控制。
关键创新:论文的关键创新在于提出了可控推理的概念,并设计了一种基于指令遵循和解耦生成的实现方法。与现有方法相比,该方法能够更有效地控制推理过程,从而提高隐私保护能力。此外,使用LoRA适配器解耦推理和答案生成,使得可以独立地优化和控制这两个过程。
关键设计:论文的关键设计包括:1) 构建包含推理过程约束的指令遵循数据集;2) 使用LoRA适配器分别控制推理和答案生成;3) 设计合适的损失函数,以平衡任务性能和隐私保护能力。具体的参数设置和网络结构细节在论文中未详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在指令遵循性能上获得了高达20.9个点的提升,在隐私基准上获得了高达51.9个百分点的提升。这些提升是在六个不同规模的模型上取得的,表明该方法的有效性和泛化能力。虽然提升隐私保护能力可能会牺牲一定的任务效用,但整体结果表明,该方法在隐私保护和任务性能之间取得了较好的平衡。
🎯 应用场景
该研究成果可应用于各种需要处理敏感用户数据的AI Agent,例如智能客服、医疗诊断助手、金融风控系统等。通过控制推理过程,可以有效降低隐私泄露的风险,提升用户对AI系统的信任度,促进AI技术在敏感领域的应用。
📄 摘要(原文)
AI agents powered by reasoning models require access to sensitive user data. However, their reasoning traces are difficult to control, which can result in the unintended leakage of private information to external parties. We propose training models to follow instructions not only in the final answer, but also in reasoning traces, potentially under different constraints. We hypothesize that improving their instruction following abilities in the reasoning traces can improve their privacy-preservation skills. To demonstrate this, we fine-tune models on a new instruction-following dataset with explicit restrictions on reasoning traces. We further introduce a generation strategy that decouples reasoning and answer generation using separate LoRA adapters. We evaluate our approach on six models from two model families, ranging from 1.7B to 14B parameters, across two instruction-following benchmarks and two privacy benchmarks. Our method yields substantial improvements, achieving gains of up to 20.9 points in instruction-following performance and up to 51.9 percentage points on privacy benchmarks. These improvements, however, can come at the cost of task utility, due to the trade-off between reasoning performance and instruction-following abilities. Overall, our results show that improving instruction-following behavior in reasoning models can significantly enhance privacy, suggesting a promising direction for the development of future privacy-aware agents. Our code and data are available at https://github.com/UKPLab/arxiv2026-controllable-reasoning-models