FraudShield: Knowledge Graph Empowered Defense for LLMs against Fraud Attacks
作者: Naen Xu, Jinghuai Zhang, Ping He, Chunyi Zhou, Jun Wang, Zhihui Fu, Tianyu Du, Zhaoxiang Wang, Shouling Ji
分类: cs.CR, cs.AI, cs.CL
发布日期: 2026-01-30
备注: WWW 2026
💡 一句话要点
FraudShield:利用知识图谱增强LLM防御欺诈攻击的能力
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 欺诈检测 知识图谱 安全防御 可解释性
📋 核心要点
- 现有LLM防御方法在有效性、可解释性和泛化性方面存在局限,难以应对欺诈信息操纵。
- FraudShield构建欺诈策略-关键词知识图谱,增强输入信息,引导LLM做出更安全响应。
- 实验表明,FraudShield在多个LLM和欺诈类型上优于现有方法,并提供可解释的线索。
📝 摘要(中文)
大型语言模型(LLMs)已被广泛集成到关键的自动化工作流程中,包括合同审查和求职申请流程。然而,LLMs容易受到欺诈信息的操纵,这可能导致有害的结果。尽管已经开发了先进的防御方法来解决这个问题,但它们在有效性、可解释性和泛化性方面通常存在局限性,尤其是在应用于基于LLM的应用程序时。为了应对这些挑战,我们引入了FraudShield,这是一个新颖的框架,旨在通过全面分析欺诈策略来保护LLMs免受欺诈内容的侵害。具体来说,FraudShield构建并完善了一个欺诈策略-关键词知识图谱,以捕获可疑文本与欺诈技术之间的高置信度关联。结构化的知识图谱通过突出关键词并提供支持证据来增强原始输入,引导LLM做出更安全的回应。大量实验表明,FraudShield在四个主流LLM和五个代表性欺诈类型中始终优于最先进的防御方法,同时还为模型的生成提供了可解释的线索。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)容易受到欺诈信息操纵的问题,现有防御方法在有效性、可解释性和泛化性方面存在不足,尤其是在应用于LLM驱动的自动化工作流程(如合同审查、求职申请)时,容易导致有害结果。
核心思路:FraudShield的核心思路是构建一个欺诈策略-关键词知识图谱,该图谱能够捕获可疑文本与欺诈技术之间的高置信度关联。通过该知识图谱,FraudShield能够增强原始输入,突出显示关键词,并提供支持证据,从而引导LLM做出更安全、更可靠的响应。这样设计的目的是让LLM在生成内容时能够更好地识别和规避欺诈信息。
技术框架:FraudShield的整体框架包括以下几个主要模块:1) 欺诈策略-关键词知识图谱构建模块:负责构建和完善知识图谱,该图谱包含欺诈策略、关键词以及它们之间的关联关系。2) 输入增强模块:利用知识图谱对原始输入进行增强,突出显示关键词,并提供支持证据。3) LLM推理模块:使用增强后的输入提示LLM进行推理和生成内容。4) 输出评估模块:评估LLM生成的输出,判断其是否包含欺诈信息。
关键创新:FraudShield的关键创新在于其利用知识图谱来增强LLM的防御能力。与传统的防御方法相比,FraudShield不仅能够识别欺诈信息,还能够提供可解释的线索,帮助LLM更好地理解欺诈策略。此外,FraudShield的知识图谱可以不断更新和完善,从而提高其防御能力。
关键设计:知识图谱的构建是FraudShield的关键设计之一。论文可能采用了多种技术来构建知识图谱,例如,从已知的欺诈案例中提取关键词和策略,利用自然语言处理技术分析文本数据,以及使用人工标注来验证知识图谱的准确性。此外,输入增强模块的设计也至关重要,需要选择合适的关键词突出显示方法和证据提供方式,以确保LLM能够有效地利用这些信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,FraudShield在四个主流LLM(具体模型名称未知)和五个代表性欺诈类型(具体类型未知)上,始终优于最先进的防御方法。具体性能提升数据未知,但强调了FraudShield在防御欺诈攻击方面的有效性和优越性,并能为模型生成提供可解释的线索。
🎯 应用场景
FraudShield可应用于多种场景,包括合同审查、求职申请、金融风控、舆情监控等。通过防御LLM免受欺诈信息的侵害,FraudShield可以提高自动化工作流程的安全性,降低欺诈风险,并提升LLM应用的可靠性。未来,FraudShield有望成为LLM安全领域的重要组成部分,推动LLM在更多领域的应用。
📄 摘要(原文)
Large language models (LLMs) have been widely integrated into critical automated workflows, including contract review and job application processes. However, LLMs are susceptible to manipulation by fraudulent information, which can lead to harmful outcomes. Although advanced defense methods have been developed to address this issue, they often exhibit limitations in effectiveness, interpretability, and generalizability, particularly when applied to LLM-based applications. To address these challenges, we introduce FraudShield, a novel framework designed to protect LLMs from fraudulent content by leveraging a comprehensive analysis of fraud tactics. Specifically, FraudShield constructs and refines a fraud tactic-keyword knowledge graph to capture high-confidence associations between suspicious text and fraud techniques. The structured knowledge graph augments the original input by highlighting keywords and providing supporting evidence, guiding the LLM toward more secure responses. Extensive experiments show that FraudShield consistently outperforms state-of-the-art defenses across four mainstream LLMs and five representative fraud types, while also offering interpretable clues for the model's generations.