Benchmarking Safety Risks of Knowledge-Intensive Reasoning under Malicious Knowledge Editing

📄 arXiv: 2605.10146v1 📥 PDF

作者: Qinghua Mao, Xi Lin, Jinze Gu, Jun Wu, Siyuan Li, Yuliang Chen

分类: cs.AI, cs.CR

发布日期: 2026-05-11


💡 一句话要点

提出EditRisk-Bench基准,系统评估大模型在恶意知识编辑下的推理安全风险

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 知识编辑 模型安全 逻辑推理 对抗性攻击 基准测试

📋 核心要点

  1. 现有知识编辑评估主要关注编辑成功率与模型泛化,缺乏针对恶意知识注入后下游推理行为的安全风险评估框架。
  2. 提出EditRisk-Bench基准,通过整合错误信息、偏见与安全违规场景,系统量化恶意知识编辑对推理可靠性的破坏。
  3. 实验证实恶意编辑可在保持模型通用能力的同时诱导不安全推理,揭示了编辑规模与推理复杂度对风险的关键影响。

📝 摘要(中文)

大语言模型(LLMs)日益依赖知识编辑来支持知识密集型推理,但这引入了严重的安全风险:攻击者可能注入恶意或误导性知识,从而破坏下游推理并导致有害后果。现有的知识编辑基准主要关注编辑有效性,缺乏评估编辑后知识对推理行为安全影响的统一框架。为此,本文提出了EditRisk-Bench,这是一个用于系统评估恶意知识编辑下知识密集型推理安全风险的基准。与以往侧重编辑成功率、泛化性和局部性的基准不同,EditRisk-Bench聚焦于注入知识如何影响下游推理行为与可靠性。它整合了包括错误信息、偏见和安全违规在内的多种恶意场景,结合多级知识密集型推理任务及代表性编辑策略,构建了一个衡量攻击有效性、推理正确性及副作用的统一评估框架。对开源和闭源LLMs的广泛实验表明,恶意知识编辑能可靠地诱导错误或不安全的推理,同时保持模型的一般能力,使得此类风险难以被检测。研究进一步识别了影响风险的关键因素,包括编辑规模、知识特征和推理复杂度,为理解和缓解LLM知识编辑中的安全风险提供了可扩展的测试平台。

🔬 方法详解

问题定义:论文旨在解决大模型在知识编辑过程中面临的“恶意注入”安全隐患。现有研究多关注如何高效修改模型知识,却忽视了恶意知识如何通过推理链条传播,导致模型输出有害或错误结论的深层风险。

核心思路:通过构建一个包含多维度恶意场景(如虚假事实、偏见、安全违规)的评估基准,量化编辑操作对模型推理逻辑的侵蚀程度。核心逻辑在于将知识编辑视为一种潜在的攻击向量,评估其在复杂推理任务中的“攻击有效性”。

技术框架:EditRisk-Bench框架包含三个核心模块:恶意知识注入模块(涵盖多种编辑策略)、多级推理任务集(从简单事实检索到复杂逻辑推理)、以及多维评估指标体系(涵盖攻击成功率、推理正确性及副作用评估)。

关键创新:首次将知识编辑从“编辑效果评估”转向“推理安全评估”。该框架不仅关注编辑后的知识是否被模型采纳,更关注该知识如何作为“毒素”在多步推理中扩散,导致模型产生逻辑偏差或安全违规。

关键设计:引入了针对不同推理深度(Reasoning Complexity)的测试用例,并定义了“推理可靠性”指标,通过对比编辑前后模型在相同推理任务上的表现差异,量化恶意知识对模型决策边界的破坏程度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验覆盖了多种主流开源与闭源模型,结果显示恶意编辑能以极高的成功率诱导模型输出错误结论,且该过程具有极强的隐蔽性,模型在其他通用任务上的表现几乎不受影响。研究定量分析了编辑规模、知识特征与推理复杂度对风险的影响,发现复杂推理任务对恶意知识的敏感度显著更高。

🎯 应用场景

该研究可应用于大模型安全审计与防御领域。企业和开发者可利用EditRisk-Bench评估模型在知识更新过程中的鲁棒性,识别潜在的注入攻击风险。此外,该基准为开发更安全的知识编辑算法提供了测试平台,有助于构建具备自我防御能力的知识库更新机制,防止模型被恶意篡改。

📄 摘要(原文)

Large language models (LLMs) increasingly rely on knowledge editing to support knowledge-intensive reasoning, but this flexibility also introduces critical safety risks: adversaries can inject malicious or misleading knowledge that corrupts downstream reasoning and leads to harmful outcomes. Existing knowledge editing benchmarks primarily focus on editing efficacy and lack a unified framework for systematically evaluating the safety implications of edited knowledge on reasoning behavior. To address this gap, we present EditRisk-Bench, a benchmark for systematically evaluating safety risks of knowledge-intensive reasoning under malicious knowledge editing. Unlike prior benchmarks that mainly emphasize edit success, generalization, and locality, EditRisk-Bench focuses on how injected knowledge affects downstream reasoning behavior and reliability. It integrates diverse malicious scenarios, including misinformation, bias, and safety violations, together with multi-level knowledge-intensive reasoning tasks and representative editing strategies within a unified evaluation framework measuring attack effectiveness, reasoning correctness, and side effects. Extensive experiments on both open-source and closed-source LLMs show that malicious knowledge editing can reliably induce incorrect or unsafe reasoning while largely preserving general capabilities, making such risks difficult to detect. We further identify several key factors influencing these risks, including edit scale, knowledge characteristics, and reasoning complexity. EditRisk-Bench provides an extensible testbed for understanding and mitigating safety risks in knowledge editing for LLMs.