RiskAtlas: Exposing Domain-Specific Risks in LLMs through Knowledge-Graph-Guided Harmful Prompt Generation

作者: Huawei Zheng, Xinqi Jiang, Sen Yang, Shouling Ji, Yingcai Wu, Dazhen Deng

分类: cs.CL, cs.AI

发布日期: 2026-01-08

💡 一句话要点

RiskAtlas：通过知识图谱引导的有害提示生成，揭示LLM在特定领域的风险

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型安全 有害提示生成 知识图谱 领域特定风险 红队测试

📋 核心要点

现有LLM安全数据集主要依赖手动构建，且侧重于显式有害提示，难以反映真实威胁。
RiskAtlas框架利用知识图谱引导有害提示生成，并采用双路径混淆重写提高提示的隐式性。
该框架生成高质量的领域相关且隐式的有害提示数据集，可用于更真实的LLM红队测试。

📝 摘要（中文）

大型语言模型（LLM）越来越多地应用于金融和医疗保健等专业领域，这也引入了独特的安全风险。目前，领域特定的有害提示数据集仍然稀缺，并且主要依赖于手动构建；公共数据集主要关注显式的有害提示，而现代LLM防御通常可以检测并拒绝这些提示。相比之下，通过间接领域知识表达的隐式有害提示更难检测，也更能反映真实世界的威胁。我们确定了两个挑战：将领域知识转化为可操作的约束，以及提高生成的有害提示的隐式性。为了解决这些问题，我们提出了一个端到端框架，该框架首先执行知识图谱引导的有害提示生成，以系统地生成领域相关的提示，然后应用双路径混淆重写，通过直接和上下文增强的重写将显式有害提示转换为隐式变体。该框架生成了高质量的数据集，结合了强大的领域相关性和隐式性，从而能够进行更真实的红队测试，并推进LLM安全研究。我们在GitHub上发布了我们的代码和数据集。

🔬 方法详解

问题定义：论文旨在解决LLM在特定领域应用时，由于缺乏高质量的、领域相关的隐式有害提示数据集，导致LLM安全风险评估不足的问题。现有方法主要依赖人工构建数据集，效率低且覆盖范围有限，同时，现有数据集主要关注显式有害提示，容易被LLM防御机制检测到，无法有效评估LLM在真实场景下的安全风险。

核心思路：论文的核心思路是利用知识图谱来指导有害提示的生成，并采用双路径混淆重写技术将显式有害提示转化为隐式有害提示。通过知识图谱，可以系统地生成领域相关的提示，保证提示的领域特异性；通过双路径混淆重写，可以提高提示的隐式性，使其更难被LLM防御机制检测到。

技术框架：RiskAtlas框架包含两个主要阶段：知识图谱引导的有害提示生成和双路径混淆重写。在知识图谱引导的有害提示生成阶段，首先构建领域知识图谱，然后利用图谱中的实体和关系生成有害提示。在双路径混淆重写阶段，采用直接重写和上下文增强的重写两种方式，将显式有害提示转化为隐式变体。

关键创新：该论文的关键创新在于提出了一个端到端的框架，能够自动生成高质量的、领域相关的隐式有害提示数据集。与现有方法相比，该框架能够更有效地评估LLM在特定领域的安全风险，并为LLM安全研究提供更有价值的数据。

关键设计：在知识图谱引导的有害提示生成阶段，需要选择合适的知识图谱构建方法和提示生成策略。在双路径混淆重写阶段，需要设计有效的重写规则和上下文增强方法，以保证重写后的提示仍然具有有害性，但更难被检测到。具体的参数设置和损失函数等技术细节在论文中未详细说明，属于未知内容。

📊 实验亮点

论文提出了RiskAtlas框架，能够自动生成高质量的领域相关且隐式的有害提示数据集，为LLM安全研究提供了新的数据资源和评估方法。具体的实验结果和性能数据在摘要中未提及，属于未知内容，但强调了该框架能够进行更真实的红队测试，并推进LLM安全研究。

🎯 应用场景

该研究成果可应用于金融、医疗等专业领域的LLM安全风险评估，帮助开发者发现并修复LLM的潜在安全漏洞。生成的有害提示数据集可用于训练更鲁棒的LLM防御模型，提高LLM在实际应用中的安全性。未来，该方法可以扩展到更多领域，并与其他安全技术相结合，构建更完善的LLM安全保障体系。

📄 摘要（原文）

Large language models (LLMs) are increasingly applied in specialized domains such as finance and healthcare, where they introduce unique safety risks. Domain-specific datasets of harmful prompts remain scarce and still largely rely on manual construction; public datasets mainly focus on explicit harmful prompts, which modern LLM defenses can often detect and refuse. In contrast, implicit harmful prompts-expressed through indirect domain knowledge-are harder to detect and better reflect real-world threats. We identify two challenges: transforming domain knowledge into actionable constraints and increasing the implicitness of generated harmful prompts. To address them, we propose an end-to-end framework that first performs knowledge-graph-guided harmful prompt generation to systematically produce domain-relevant prompts, and then applies dual-path obfuscation rewriting to convert explicit harmful prompts into implicit variants via direct and context-enhanced rewriting. This framework yields high-quality datasets combining strong domain relevance with implicitness, enabling more realistic red-teaming and advancing LLM safety research. We release our code and datasets at GitHub.

RiskAtlas: Exposing Domain-Specific Risks in LLMs through Knowledge-Graph-Guided Harmful Prompt Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册