FENCE: A Financial and Multimodal Jailbreak Detection Dataset
作者: Mirae Kim, Seonghun Jeong, Youngjun Kwak
分类: cs.CL, cs.AI, cs.DB
发布日期: 2026-02-20
备注: lrec 2026 accepted paper
💡 一句话要点
提出FENCE:金融多模态越狱检测数据集,提升金融领域AI系统安全性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 越狱检测 金融领域 数据集 视觉语言模型
📋 核心要点
- 现有VLM越狱检测资源不足,尤其缺乏金融领域相关的多模态数据集,难以有效评估和提升金融AI系统的安全性。
- FENCE数据集通过构建金融领域相关的文本查询和图像威胁,模拟真实场景,用于训练和评估VLM的越狱检测能力。
- 实验表明,商业和开源VLM均存在越狱漏洞,基于FENCE训练的检测器在同分布数据上达到99%准确率,并保持了良好的泛化性能。
📝 摘要(中文)
大型语言模型(LLM)和视觉语言模型(VLM)的越狱攻击对其部署构成重大风险。VLM由于同时处理文本和图像,攻击面更广,因此尤其脆弱。然而,现有的越狱检测资源匮乏,尤其是在金融领域。为了解决这一问题,我们提出了FENCE,一个双语(韩语-英语)多模态数据集,用于训练和评估金融应用中的越狱检测器。FENCE通过与图像相关的威胁配对的金融相关查询,强调了领域真实性。对商业和开源VLM的实验表明,它们都存在一致的漏洞,GPT-4o显示出可衡量的攻击成功率,而开源模型则表现出更大的风险。在FENCE上训练的基线检测器实现了99%的同分布准确率,并在外部基准测试中保持了强大的性能,突显了该数据集在训练可靠检测模型方面的稳健性。FENCE为推进金融领域的多模态越狱检测,以及支持敏感领域中更安全、更可靠的AI系统提供了一个重点资源。警告:本文包含可能具有攻击性的示例数据。
🔬 方法详解
问题定义:论文旨在解决视觉语言模型(VLM)在金融领域面临的越狱攻击检测问题。现有的越狱检测数据集通用性强,缺乏金融领域的针对性,无法有效评估和提升VLM在金融场景下的安全性。此外,VLM同时处理文本和图像,攻击面更广,需要多模态的越狱检测方法。
核心思路:论文的核心思路是构建一个金融领域的多模态越狱检测数据集FENCE,该数据集包含金融相关的文本查询和图像威胁,能够更真实地模拟金融场景下的越狱攻击。通过在该数据集上训练越狱检测器,可以提高VLM在金融领域的安全性。
技术框架:FENCE数据集包含以下几个部分:金融相关的文本查询、与查询相关的图像威胁、以及是否为越狱攻击的标签。研究人员可以使用该数据集训练各种越狱检测模型,例如基于文本的分类器、基于图像的分类器、以及多模态融合的分类器。论文还提供了一个基线检测器,该检测器使用文本和图像特征进行分类。
关键创新:FENCE数据集的关键创新在于其领域针对性和多模态特性。与现有的通用越狱检测数据集相比,FENCE数据集更关注金融领域,能够更真实地模拟金融场景下的越狱攻击。此外,FENCE数据集包含图像威胁,可以用于训练多模态的越狱检测模型。
关键设计:FENCE数据集包含韩语和英语两种语言,以支持不同语言的VLM。数据集中的文本查询涵盖了各种金融主题,例如投资、贷款、保险等。图像威胁包括各种可能用于诱导VLM生成有害内容的图像,例如恶意软件截图、钓鱼网站截图等。数据集的标签由人工标注,标注人员根据VLM的输出判断是否为越狱攻击。
🖼️ 关键图片
📊 实验亮点
实验结果表明,商业VLM(如GPT-4o)和开源VLM均存在越狱漏洞。在FENCE数据集上训练的基线检测器在同分布数据上实现了99%的准确率,并在外部基准测试中保持了良好的性能,验证了FENCE数据集的有效性和泛化能力。
🎯 应用场景
该研究成果可应用于金融领域的智能客服、风险评估、反欺诈等场景,提升金融AI系统的安全性,保护用户隐私和财产安全。未来可进一步扩展数据集,覆盖更多金融领域和攻击类型,并探索更有效的多模态越狱检测方法。
📄 摘要(原文)
Jailbreaking poses a significant risk to the deployment of Large Language Models (LLMs) and Vision Language Models (VLMs). VLMs are particularly vulnerable because they process both text and images, creating broader attack surfaces. However, available resources for jailbreak detection are scarce, particularly in finance. To address this gap, we present FENCE, a bilingual (Korean-English) multimodal dataset for training and evaluating jailbreak detectors in financial applications. FENCE emphasizes domain realism through finance-relevant queries paired with image-grounded threats. Experiments with commercial and open-source VLMs reveal consistent vulnerabilities, with GPT-4o showing measurable attack success rates and open-source models displaying greater exposure. A baseline detector trained on FENCE achieves 99 percent in-distribution accuracy and maintains strong performance on external benchmarks, underscoring the dataset's robustness for training reliable detection models. FENCE provides a focused resource for advancing multimodal jailbreak detection in finance and for supporting safer, more reliable AI systems in sensitive domains. Warning: This paper includes example data that may be offensive.