KSAFE-MM: A Multimodal Safety Benchmark via Localized Contextualization for Korean Cultural Risks

📄 arXiv: 2605.28013v1 📥 PDF

作者: Yongwoo Kim, Sojung An, Yunjin Park, Jungwon Yoon, Dujin Lee, HyunBeom Cho, Jaewon Lee, Wonhyuk Lee, Youngchol Kim, JeongYeop Kim, Donghyun Kim

分类: cs.CL

发布日期: 2026-05-27


💡 一句话要点

KSAFE-MM:通过本地化情境化构建韩国文化风险多模态安全基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态安全 文化风险 安全基准 大语言模型 韩国文化 本地化情境化 越狱攻击

📋 核心要点

  1. 现有MLLM安全评估工具主要以英语为中心,忽略了本地文化背景相关的风险,导致评估结果存在偏差。
  2. KSAFE-MM通过语言情境化和本地化视觉查询,构建了包含通用安全风险和特定文化漏洞的韩国多模态安全基准。
  3. 实验表明,MLLM对文化背景攻击的脆弱性更高,且安全性和过度拒绝之间存在权衡,突显了文化基础安全评估的必要性。

📝 摘要(中文)

多模态大型语言模型(MLLM)通过引入跨多种模态(如语言和视觉)的漏洞,加剧了安全风险。然而,现有的MLLM安全评估工具存在主要局限性:1)以英语为中心的数据集构建,以及2)侧重于未与本地文化背景相关的通用风险。本文介绍了KSAFE-MM,一个用于韩国多模态安全评估的基准,涵盖通用安全风险和特定文化漏洞。KSAFE-MM由两部分组成,KSAFE-MM-G和KSAFE-MM-C。KSAFE-MM-G通过语言情境化评估韩国语境中全球共享的风险,将通用安全查询转换为情境化的多模态样本。KSAFE-MM-C使用源自真实世界语境的本地化视觉查询,针对依赖于文化的MLLM安全漏洞。它将这些视觉查询与越狱式文本查询配对,以涵盖涉及文化视觉线索和恶意文本意图的多模态安全风险。这些组件共同提供了一个从通用到本地的构建流程,用于评估全球共享的安全风险和特定文化漏洞。我们在KSAFE-MM上评估了12个最先进的MLLM,并揭示了模型对文化背景攻击的脆弱性高于对通用攻击的脆弱性。值得注意的是,越狱策略大大提高了攻击成功率,与标准查询的13.4%相比,ProgramExecution的攻击成功率高达74.2%。此外,我们发现安全性和过度拒绝之间存在系统的权衡,即攻击成功率较低的模型往往在良性查询中表现出过度拒绝行为。这些发现强调了在以英语为中心的基准之外,迫切需要以文化为基础的安全评估。

🔬 方法详解

问题定义:现有的多模态大语言模型安全评估主要集中在通用风险和英语语境下,忽略了特定文化背景下的安全漏洞。这导致模型在处理包含文化信息的恶意输入时,可能无法有效识别和防御,从而造成潜在的安全风险。现有方法缺乏针对特定文化背景的评估数据集和方法,无法全面评估MLLM的安全性。

核心思路:KSAFE-MM的核心思路是通过构建一个包含通用安全风险和特定文化漏洞的韩国多模态安全基准,来全面评估MLLM的安全性。该基准通过语言情境化和本地化视觉查询,将通用安全风险与韩国文化背景相结合,并利用越狱式文本查询来增强攻击的有效性。

技术框架:KSAFE-MM包含两个主要部分:KSAFE-MM-G和KSAFE-MM-C。KSAFE-MM-G通过语言情境化,将通用安全查询转换为韩国语境下的多模态样本,用于评估模型在处理通用安全风险时的表现。KSAFE-MM-C则使用源自真实世界语境的本地化视觉查询,并与越狱式文本查询配对,用于评估模型在处理特定文化漏洞时的表现。整个框架提供了一个从通用到本地的构建流程,用于全面评估MLLM的安全性。

关键创新:KSAFE-MM最重要的技术创新点在于其针对特定文化背景的安全评估方法。它通过本地化视觉查询和语言情境化,将通用安全风险与韩国文化背景相结合,从而能够更准确地评估模型在处理包含文化信息的恶意输入时的表现。此外,KSAFE-MM还采用了越狱式文本查询,进一步增强了攻击的有效性。

关键设计:KSAFE-MM-C的关键设计在于本地化视觉查询的选取,这些查询来源于真实世界的韩国文化场景,例如特定的地标、食物、服饰等。越狱式文本查询的设计则参考了已有的越狱攻击方法,例如ProgramExecution等,旨在绕过模型的安全防御机制。实验中,使用攻击成功率(ASR)作为评估指标,衡量模型在面对恶意输入时的安全性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在KSAFE-MM上的实验结果表明,MLLM对文化背景攻击的脆弱性高于通用攻击。越狱策略显著提高了攻击成功率,ProgramExecution的攻击成功率高达74.2%,而标准查询仅为13.4%。同时,研究发现安全性和过度拒绝之间存在权衡,攻击成功率较低的模型往往在良性查询中表现出过度拒绝行为。

🎯 应用场景

KSAFE-MM可用于评估和提升多模态大语言模型在处理韩国文化相关内容时的安全性,降低模型被恶意利用的风险。该基准的构建方法可以推广到其他文化背景,为构建更安全、更可靠的全球化多模态人工智能系统提供参考。此外,该研究有助于提高公众对人工智能安全风险的认识。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) exacerbate safety risks by introducing vulnerabilities across multiple modalities, such as language and vision. Current MLLM safety evaluation tools, however, suffer from major limitations: 1) English-centric dataset construction, and 2) a focus on generic risks that are not tied to local cultural contexts. This paper introduces KSAFE-MM, a benchmark for Korean multimodal safety evaluation that covers both general safety risks and culture-specific vulnerabilities. KSAFE-MM consists of two parts, KSAFE-MM-G and KSAFE-MM-C. KSAFE-MM-G evaluates globally shared risks in Korean contexts through linguistic contextualization, which transforms generic safety queries into contextually grounded multimodal samples. KSAFE-MM-C targets culture-dependent MLLM safety vulnerabilities using localized visual queries derived from real-world contexts. It pairs these visual queries with jailbreak-style textual queries to cover multimodal safety risks involving cultural visual cues and malicious textual intent. Together, these components provide a general-to-local construction pipeline for evaluating both globally shared safety risks and culture-specific vulnerabilities. We evaluate 12 state-of-the-art MLLMs on KSAFE-MM and reveal that models exhibit greater vulnerability to culturally grounded attacks than to generic ones. Notably, jailbreaking strategies substantially amplify attack success rates, with ProgramExecution yielding up to 74.2% ASR compared to 13.4% for standard queries. Furthermore, we identify a systematic trade-off between safety and over-refusal, where models achieving low ASR tend to exhibit excessive refusal behavior on benign queries. These findings highlight the urgent need for culturally grounded safety evaluation beyond English-centric benchmarks.