RiskAtlas: Exposing Domain-Specific Risks in LLMs through Knowledge-Graph-Guided Harmful Prompt Generation

📄 arXiv: 2601.04740v1 📥 PDF

作者: Huawei Zheng, Xinqi Jiang, Sen Yang, Shouling Ji, Yingcai Wu, Dazhen Deng

分类: cs.CL, cs.AI

发布日期: 2026-01-08


💡 一句话要点

RiskAtlas:通过知识图谱引导的有害提示生成,揭示LLM在特定领域的风险

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型安全 领域特定风险 知识图谱 有害提示生成 红队测试

📋 核心要点

  1. 现有领域特定有害提示数据集稀缺,且主要依赖手动构建,难以覆盖真实威胁。
  2. 提出RiskAtlas框架,利用知识图谱引导生成领域相关提示,并进行双路径混淆重写。
  3. 该框架生成高质量数据集,提升LLM红队测试的真实性,促进LLM安全研究。

📝 摘要(中文)

大型语言模型(LLM)越来越多地应用于金融和医疗保健等专业领域,这也引入了独特的安全风险。目前,领域特定的有害提示数据集仍然稀缺,并且主要依赖于手动构建;公共数据集主要关注显式的有害提示,而现代LLM防御通常可以检测并拒绝这些提示。相比之下,通过间接领域知识表达的隐式有害提示更难检测,也更能反映真实世界的威胁。我们确定了两个挑战:将领域知识转化为可操作的约束,以及提高生成的有害提示的隐蔽性。为了解决这些问题,我们提出了一个端到端框架,该框架首先执行知识图谱引导的有害提示生成,以系统地生成与领域相关的提示,然后应用双路径混淆重写,通过直接和上下文增强的重写将显式有害提示转换为隐式变体。该框架生成了高质量的数据集,结合了强大的领域相关性和隐蔽性,从而能够进行更真实的红队测试,并推进LLM安全研究。我们在GitHub上发布了我们的代码和数据集。

🔬 方法详解

问题定义:论文旨在解决LLM在特定领域应用时,由于缺乏高质量的、隐蔽的有害提示数据集,导致的安全风险评估不足的问题。现有方法主要依赖于手动构建数据集或关注显式有害提示,无法有效评估LLM在面对真实世界威胁时的安全性。

核心思路:论文的核心思路是利用知识图谱来指导有害提示的生成,从而确保提示的领域相关性。同时,通过双路径混淆重写技术,将显式有害提示转化为隐式变体,提高提示的隐蔽性,使其更难被LLM的防御机制检测到。

技术框架:RiskAtlas框架包含两个主要阶段:1) 知识图谱引导的有害提示生成:利用领域知识图谱,系统性地生成与特定领域相关的有害提示。2) 双路径混淆重写:将生成的显式有害提示转化为隐式变体,包括直接重写和上下文增强重写。直接重写通过替换关键词或改变句子结构来混淆提示,上下文增强重写则通过添加相关的上下文信息来掩盖提示的真实意图。

关键创新:该论文的关键创新在于结合了知识图谱和双路径混淆重写技术,从而能够自动生成高质量的、领域相关的、隐蔽的有害提示。与现有方法相比,该方法能够更有效地评估LLM在特定领域应用时的安全风险。

关键设计:知识图谱的选择和构建是关键。双路径混淆重写中,直接重写和上下文增强重写的比例需要根据具体领域和LLM的防御能力进行调整。此外,需要设计合适的评估指标来衡量生成提示的领域相关性和隐蔽性。

📊 实验亮点

RiskAtlas框架能够生成高质量的、领域相关的、隐蔽的有害提示数据集,有效提升了LLM红队测试的真实性。实验结果表明,该框架生成的提示能够绕过现有的LLM防御机制,揭示LLM在特定领域的安全风险。具体性能数据未知。

🎯 应用场景

该研究成果可应用于金融、医疗等专业领域LLM的安全风险评估与红队测试,帮助开发者发现并修复LLM的安全漏洞,提升LLM在特定领域的安全性和可靠性。未来可扩展到更多领域,并结合更先进的生成模型和混淆技术,进一步提高有害提示的生成质量。

📄 摘要(原文)

Large language models (LLMs) are increasingly applied in specialized domains such as finance and healthcare, where they introduce unique safety risks. Domain-specific datasets of harmful prompts remain scarce and still largely rely on manual construction; public datasets mainly focus on explicit harmful prompts, which modern LLM defenses can often detect and refuse. In contrast, implicit harmful prompts-expressed through indirect domain knowledge-are harder to detect and better reflect real-world threats. We identify two challenges: transforming domain knowledge into actionable constraints and increasing the implicitness of generated harmful prompts. To address them, we propose an end-to-end framework that first performs knowledge-graph-guided harmful prompt generation to systematically produce domain-relevant prompts, and then applies dual-path obfuscation rewriting to convert explicit harmful prompts into implicit variants via direct and context-enhanced rewriting. This framework yields high-quality datasets combining strong domain relevance with implicitness, enabling more realistic red-teaming and advancing LLM safety research. We release our code and datasets at GitHub.