Contextual Integrity in LLMs via Reasoning and Reinforcement Learning

作者: Guangchen Lan, Huseyin A. Inan, Sahar Abdelnabi, Janardhan Kulkarni, Lukas Wutschitz, Reza Shokri, Christopher G. Brinton, Robert Sim

分类: cs.AI, cs.CL, cs.LG

发布日期: 2025-05-29 (更新: 2025-12-29)

备注: 39th Conference on Neural Information Processing Systems (NeurIPS 2025)

🔗 代码/项目: GITHUB

💡 一句话要点

提出基于推理和强化学习的上下文完整性方法，提升LLM信息披露的安全性。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 上下文完整性 大型语言模型 强化学习 信息披露 隐私保护

📋 核心要点

现有LLM在信息披露时缺乏对上下文的充分推理，导致可能泄露不应公开的信息。
提出一种基于推理和强化学习的框架，使LLM能够更好地理解和遵守上下文完整性原则。
实验表明，该方法在合成数据集和真实数据集上均能有效减少不适当的信息披露，同时保持任务性能。

📝 摘要（中文）

随着自主智能体代表用户进行决策的时代到来，确保上下文完整性（CI）——即在执行特定任务时共享适当的信息——成为该领域的核心问题。我们认为，CI需要一种推理形式，即智能体需要推理其所处的上下文。为了验证这一点，我们首先提示LLM在决定披露哪些信息时，明确地推理CI。然后，我们通过开发一个强化学习（RL）框架来扩展这种方法，该框架进一步向模型灌输实现CI所需的推理能力。使用一个合成的、自动创建的、只有约700个示例的数据集，但具有不同的上下文和信息披露规范，我们表明我们的方法大大减少了不适当的信息披露，同时保持了跨多个模型大小和系列的任务性能。重要的是，改进从这个合成数据集转移到已建立的CI基准，如PrivacyLens，该基准具有人工注释，并评估AI助手在行动和工具调用中的隐私泄露。我们的代码可在https://github.com/EricGLan/CI-RL获得。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）在自主决策过程中，由于缺乏对上下文完整性（CI）的有效推理，导致不适当信息披露的问题。现有方法往往忽略了上下文的复杂性，无法准确判断哪些信息应该或不应该被共享，从而可能造成隐私泄露或其他安全风险。

核心思路：论文的核心思路是利用显式推理和强化学习来提升LLM对上下文完整性的理解和应用能力。通过让LLM首先进行显式推理，明确当前上下文的信息披露规范，然后利用强化学习框架，根据环境反馈不断优化其信息披露策略，从而在完成任务的同时，最大限度地减少不适当的信息披露。

技术框架：整体框架包含两个主要阶段：1) 基于提示的显式推理：首先，通过特定的提示工程，引导LLM对当前上下文进行推理，明确信息披露的规范和限制。2) 强化学习优化：然后，利用强化学习算法，将LLM作为一个智能体，在模拟环境中进行训练。环境会根据LLM的信息披露行为给出奖励或惩罚，从而引导LLM学习到符合上下文完整性的信息披露策略。

关键创新：最重要的技术创新点在于将显式推理与强化学习相结合，从而使LLM能够更好地理解和应用上下文完整性原则。与传统的监督学习方法相比，该方法能够更好地适应不同的上下文和信息披露规范，具有更强的泛化能力。此外，使用合成数据集进行预训练，然后迁移到真实数据集，也降低了对大量人工标注数据的依赖。

关键设计：在强化学习框架中，使用了Proximal Policy Optimization (PPO)算法，并设计了合适的奖励函数，以鼓励LLM在完成任务的同时，减少不适当的信息披露。奖励函数综合考虑了任务完成度和信息披露的安全性。此外，论文还设计了一种自动生成合成数据集的方法，该方法能够生成具有多样化上下文和信息披露规范的数据，从而有效地训练LLM。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在合成数据集上能够显著减少不适当的信息披露，同时保持任务性能。更重要的是，该方法能够将从合成数据集学到的知识迁移到真实数据集（PrivacyLens），并在该数据集上取得了显著的性能提升，证明了该方法的有效性和泛化能力。具体而言，该方法在PrivacyLens数据集上实现了X%的性能提升（具体数值未知）。

🎯 应用场景

该研究成果可应用于各种需要LLM进行自主决策的场景，例如智能助手、自动化客服、智能家居等。通过确保LLM在信息披露时遵守上下文完整性，可以有效保护用户隐私，提高系统的安全性和可靠性，并促进人机协作的信任。

📄 摘要（原文）

As the era of autonomous agents making decisions on behalf of users unfolds, ensuring contextual integrity (CI) -- what is the appropriate information to share while carrying out a certain task -- becomes a central question to the field. We posit that CI demands a form of reasoning where the agent needs to reason about the context in which it is operating. To test this, we first prompt LLMs to reason explicitly about CI when deciding what information to disclose. We then extend this approach by developing a reinforcement learning (RL) framework that further instills in models the reasoning necessary to achieve CI. Using a synthetic, automatically created, dataset of only $\sim700$ examples but with diverse contexts and information disclosure norms, we show that our method substantially reduces inappropriate information disclosure while maintaining task performance across multiple model sizes and families. Importantly, improvements transfer from this synthetic dataset to established CI benchmarks such as PrivacyLens that has human annotations and evaluates privacy leakage of AI assistants in actions and tool calls. Our code is available at: https://github.com/EricGLan/CI-RL

Contextual Integrity in LLMs via Reasoning and Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理