RiskAtlas: Exposing Domain-Specific Risks in LLMs through Knowledge-Graph-Guided Harmful Prompt Generation

📄 arXiv: 2601.04740v1 📥 PDF

作者: Huawei Zheng, Xinqi Jiang, Sen Yang, Shouling Ji, Yingcai Wu, Dazhen Deng

分类: cs.CL, cs.AI

发布日期: 2026-01-08


💡 一句话要点

RiskAtlas:通过知识图谱引导的有害提示生成,揭示LLM在特定领域的风险

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型安全 有害提示生成 知识图谱 领域特定风险 红队测试

📋 核心要点

  1. 现有LLM安全数据集主要依赖手动构建,且侧重于显式有害提示,难以反映真实威胁。
  2. RiskAtlas框架利用知识图谱引导有害提示生成,并采用双路径混淆重写提高提示的隐式性。
  3. 该框架生成高质量的领域相关且隐式的有害提示数据集,可用于更真实的LLM红队测试。

📝 摘要(中文)

大型语言模型(LLM)越来越多地应用于金融和医疗保健等专业领域,这也引入了独特的安全风险。目前,领域特定的有害提示数据集仍然稀缺,并且主要依赖于手动构建;公共数据集主要关注显式的有害提示,而现代LLM防御通常可以检测并拒绝这些提示。相比之下,通过间接领域知识表达的隐式有害提示更难检测,也更能反映真实世界的威胁。我们确定了两个挑战:将领域知识转化为可操作的约束,以及提高生成的有害提示的隐式性。为了解决这些问题,我们提出了一个端到端框架,该框架首先执行知识图谱引导的有害提示生成,以系统地生成领域相关的提示,然后应用双路径混淆重写,通过直接和上下文增强的重写将显式有害提示转换为隐式变体。该框架生成了高质量的数据集,结合了强大的领域相关性和隐式性,从而能够进行更真实的红队测试,并推进LLM安全研究。我们在GitHub上发布了我们的代码和数据集。

🔬 方法详解

问题定义:论文旨在解决LLM在特定领域应用时,由于缺乏高质量的、领域相关的隐式有害提示数据集,导致LLM安全风险评估不足的问题。现有方法主要依赖人工构建数据集,效率低且覆盖范围有限,同时,现有数据集主要关注显式有害提示,容易被LLM防御机制检测到,无法有效评估LLM在真实场景下的安全风险。

核心思路:论文的核心思路是利用知识图谱来指导有害提示的生成,并采用双路径混淆重写技术将显式有害提示转化为隐式有害提示。通过知识图谱,可以系统地生成领域相关的提示,保证提示的领域特异性;通过双路径混淆重写,可以提高提示的隐式性,使其更难被LLM防御机制检测到。

技术框架:RiskAtlas框架包含两个主要阶段:知识图谱引导的有害提示生成和双路径混淆重写。在知识图谱引导的有害提示生成阶段,首先构建领域知识图谱,然后利用图谱中的实体和关系生成有害提示。在双路径混淆重写阶段,采用直接重写和上下文增强的重写两种方式,将显式有害提示转化为隐式变体。

关键创新:该论文的关键创新在于提出了一个端到端的框架,能够自动生成高质量的、领域相关的隐式有害提示数据集。与现有方法相比,该框架能够更有效地评估LLM在特定领域的安全风险,并为LLM安全研究提供更有价值的数据。

关键设计:在知识图谱引导的有害提示生成阶段,需要选择合适的知识图谱构建方法和提示生成策略。在双路径混淆重写阶段,需要设计有效的重写规则和上下文增强方法,以保证重写后的提示仍然具有有害性,但更难被检测到。具体的参数设置和损失函数等技术细节在论文中未详细说明,属于未知内容。

📊 实验亮点

论文提出了RiskAtlas框架,能够自动生成高质量的领域相关且隐式的有害提示数据集,为LLM安全研究提供了新的数据资源和评估方法。具体的实验结果和性能数据在摘要中未提及,属于未知内容,但强调了该框架能够进行更真实的红队测试,并推进LLM安全研究。

🎯 应用场景

该研究成果可应用于金融、医疗等专业领域的LLM安全风险评估,帮助开发者发现并修复LLM的潜在安全漏洞。生成的有害提示数据集可用于训练更鲁棒的LLM防御模型,提高LLM在实际应用中的安全性。未来,该方法可以扩展到更多领域,并与其他安全技术相结合,构建更完善的LLM安全保障体系。

📄 摘要(原文)

Large language models (LLMs) are increasingly applied in specialized domains such as finance and healthcare, where they introduce unique safety risks. Domain-specific datasets of harmful prompts remain scarce and still largely rely on manual construction; public datasets mainly focus on explicit harmful prompts, which modern LLM defenses can often detect and refuse. In contrast, implicit harmful prompts-expressed through indirect domain knowledge-are harder to detect and better reflect real-world threats. We identify two challenges: transforming domain knowledge into actionable constraints and increasing the implicitness of generated harmful prompts. To address them, we propose an end-to-end framework that first performs knowledge-graph-guided harmful prompt generation to systematically produce domain-relevant prompts, and then applies dual-path obfuscation rewriting to convert explicit harmful prompts into implicit variants via direct and context-enhanced rewriting. This framework yields high-quality datasets combining strong domain relevance with implicitness, enabling more realistic red-teaming and advancing LLM safety research. We release our code and datasets at GitHub.