ConsisGuard: Aligning Safety Deliberation with Policy Enforcement in LLM Guardrails
作者: Yan Wang, Zhixuan Chu, Zihao Xue, Zhen Bi, Bingyu Zhu, YueFeng Chen, Zeyu Yang, Jungang Lou, Longtao Huang, Ningyu Zhang, Kui Ren, Hui Xue
分类: cs.CL
发布日期: 2026-05-29
备注: 18 pages, 9 figures
💡 一句话要点
ConsisGuard:对齐LLM Guardrails中的安全推理与策略执行,提升安全可靠性
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM Guardrails 安全审核 推理一致性 策略执行 有害内容检测
📋 核心要点
- 现有基于推理的LLM Guardrails存在“审议到执行的差距”,即推理过程识别出风险,但最终决策未能有效执行安全策略。
- ConsisGuard通过策略到决策轨迹蒸馏和功能耦合对齐,确保推理过程与安全策略对齐,决策执行与推理过程一致。
- 实验表明,ConsisGuard在提升有害内容检测性能的同时,显著降低了策略执行失败的概率,增强了Guardrails的可靠性。
📝 摘要(中文)
基于推理的LLM guardrails通过在做出最终决策之前生成明确的理由来改进安全审核。然而,它们的理由并不总是能带来忠实的执行:模型可能在其推理中识别出有害意图,但仍然预测一个安全的标签,或者在没有基于策略的理由的情况下发布不安全的决策。我们将这种安全关键的失败模式定义为审议到执行的差距。与一般的思维链忠实性不同,guardrail的可靠性需要策略执行的一致性:生成的推理应该以安全策略为基础,并且最终决策应该由此推理得出。我们提出了ConsisGuard,这是一个用于基于推理的LLM guardrails的一致性感知框架。ConsisGuard执行策略到决策轨迹的蒸馏和功能耦合对齐,对齐安全审议和决策执行之间的内部耦合。在提示和响应有害性检测基准上的实验表明,ConsisGuard提高了检测性能,同时减少了策略执行失败。这些结果表明,可靠的基于推理的guardrails需要准确地忠实执行安全策略。
🔬 方法详解
问题定义:论文旨在解决LLM Guardrails中存在的“审议到执行的差距”问题。现有基于推理的Guardrails虽然能生成推理过程,但推理结果与最终决策之间可能存在不一致,导致安全策略未能有效执行。例如,模型可能在推理中识别出有害意图,但最终仍然输出安全的标签,或者在没有充分理由的情况下输出不安全的标签。这种不一致性降低了Guardrails的可靠性和安全性。
核心思路:ConsisGuard的核心思路是通过一致性感知框架,对齐安全审议和决策执行之间的内部耦合。具体来说,它通过策略到决策轨迹蒸馏,使模型的推理过程更好地遵循安全策略;通过功能耦合对齐,确保最终决策与推理过程保持一致。这样,即使模型在推理过程中出现偏差,也能通过对齐机制纠正,从而提高Guardrails的可靠性。
技术框架:ConsisGuard框架包含两个主要模块:策略到决策轨迹蒸馏(Policy-to-Decision Trajectory Distillation)和功能耦合对齐(Functional Coupling Alignment)。首先,策略到决策轨迹蒸馏模块利用安全策略生成高质量的推理轨迹,并使用这些轨迹来训练模型,使其推理过程更好地遵循安全策略。然后,功能耦合对齐模块通过优化模型,使其最终决策与推理过程保持一致。这两个模块协同工作,共同提高Guardrails的可靠性。
关键创新:ConsisGuard的关键创新在于提出了一种一致性感知框架,显式地对齐了安全审议和决策执行之间的内部耦合。与传统的基于推理的Guardrails相比,ConsisGuard不仅关注推理过程的准确性,更关注推理过程与安全策略以及最终决策之间的一致性。这种一致性感知的设计使得ConsisGuard能够更有效地执行安全策略,提高Guardrails的可靠性。
关键设计:在策略到决策轨迹蒸馏模块中,论文可能使用了对比学习或知识蒸馏等技术,将安全策略的知识迁移到模型的推理过程中。在功能耦合对齐模块中,论文可能使用了特定的损失函数,例如交叉熵损失或对比损失,来衡量最终决策与推理过程之间的一致性。具体的参数设置和网络结构等技术细节未知,需要查阅论文原文。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ConsisGuard在提示和响应有害性检测基准上均取得了显著的性能提升。具体数据未知,但摘要指出ConsisGuard提高了检测性能,同时减少了策略执行失败。这意味着ConsisGuard不仅能更准确地识别有害内容,还能更有效地执行安全策略,从而提高Guardrails的整体可靠性。
🎯 应用场景
ConsisGuard可应用于各种需要安全审核的LLM应用场景,例如内容审核、智能客服、代码生成等。通过提高Guardrails的可靠性,ConsisGuard可以有效减少有害内容的传播,保护用户免受潜在风险,并提升LLM应用的整体安全性。未来,该技术有望进一步推广到其他安全关键的AI系统中。
📄 摘要(原文)
Reasoning-based LLM guardrails improve safety moderation by generating explicit rationales before issuing final decisions. However, their rationales do not always lead to faithful enforcement: a model may recognize a harmful intent in its reasoning but still predict a safe label, or issue an unsafe decision without policy-grounded justification. We identify this safety-critical failure mode as the deliberation-to-enforcement gap. Unlike general chain-of-thought faithfulness, guardrail reliability requires policy execution consistency: the generated reasoning should be grounded in the safety policy, and the final decision should be entailed by that reasoning. We propose ConsisGuard, a consistency-aware framework for reasoning-based LLM guardrails. ConsisGuard performs Policy-to-Decision Trajectory Distillation and Functional Coupling Alignment, aligning the internal coupling between safety deliberation and decision enforcement. Experiments on prompt and response harmfulness detection benchmarks show that ConsisGuard improves detection performance while reducing policy execution failures. These results suggest that reliable reasoning-based guardrails require accurate faithful execution of safety policies.