Self-adaptive Dataset Construction for Real-World Multimodal Safety Scenarios

📄 arXiv: 2509.04403v1 📥 PDF

作者: Jingen Qu, Lijun Li, Bo Zhang, Yichen Yan, Jing Shao

分类: cs.CV, cs.CL, cs.CR

发布日期: 2025-09-04

备注: Accepted at EMNLP 2025 Findings


💡 一句话要点

提出面向图像的自适应数据集构建方法,应对真实世界多模态安全场景挑战

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态安全 数据集构建 自适应学习 图像描述 安全评估

📋 核心要点

  1. 现有数据集构建方法难以覆盖真实世界多模态安全场景的复杂性,且缺乏统一的评估标准。
  2. 论文提出一种面向图像的自适应数据集构建方法,自动生成包含图像、文本和指导响应的RMS数据集。
  3. 实验结果表明,该方法具有良好的可扩展性和有效性,为多模态安全数据集构建提供新思路。

📝 摘要(中文)

多模态大型语言模型(MLLMs)正在快速发展,带来了日益复杂的安全挑战。然而,目前以风险为导向的数据集构建方法未能覆盖真实世界多模态安全场景(RMS)日益增长的复杂性。并且,由于缺乏统一的评估指标,它们的整体有效性仍未得到证实。本文提出了一种新颖的、面向图像的自适应数据集构建方法,用于RMS,该方法从图像开始,最终构建配对的文本和指导响应。使用这种面向图像的方法,我们自动生成了一个包含35k图像-文本对以及指导响应的RMS数据集。此外,我们引入了一个标准化的安全数据集评估指标:微调一个安全判断模型,并评估其在其他安全数据集上的能力。在各种任务上进行的大量实验证明了所提出的面向图像的pipeline的有效性。结果证实了面向图像的方法的可扩展性和有效性,为构建真实世界多模态安全数据集提供了一个新的视角。

🔬 方法详解

问题定义:现有方法主要以风险为导向,难以全面覆盖真实世界中复杂多变的多模态安全场景(RMS)。此外,缺乏统一的评估指标来衡量不同安全数据集的质量和有效性,导致模型训练和评估缺乏可比性。

核心思路:论文的核心在于提出一种“面向图像”的数据集构建方法,即从图像出发,自动生成与图像相关的文本描述和指导性响应。这种方法能够更灵活地捕捉真实世界场景的多样性,并避免了传统方法中可能存在的偏差。

技术框架:该方法包含以下几个主要阶段:1) 图像采集:收集包含各种潜在安全风险的图像。2) 文本生成:利用图像描述模型自动生成与图像内容相关的文本描述。3) 指导响应生成:根据图像和文本信息,生成针对潜在安全风险的指导性响应。4) 数据集评估:通过微调安全判断模型,并在其他安全数据集上进行评估,来衡量生成数据集的质量。

关键创新:该方法最重要的创新点在于其“面向图像”的视角。与传统的“面向风险”的方法不同,该方法能够更全面地捕捉真实世界场景的多样性,并避免了人工标注可能引入的偏差。此外,论文还提出了一个标准化的安全数据集评估指标,为不同数据集的比较提供了依据。

关键设计:论文中使用了图像描述模型来自动生成文本描述,具体使用的模型类型未知。在生成指导响应时,可能采用了基于规则的方法或基于模型的生成方法,具体细节未知。数据集评估指标的设计可能涉及对安全判断模型的微调策略和评估指标的选择,具体细节未知。

📊 实验亮点

论文构建了一个包含35k图像-文本对的RMS数据集,并通过实验验证了该数据集的有效性。实验结果表明,使用该数据集训练的模型在各种安全任务上都取得了显著的性能提升。此外,论文提出的标准化安全数据集评估指标为不同数据集的比较提供了依据。

🎯 应用场景

该研究成果可应用于提升多模态大型语言模型在真实世界安全场景中的鲁棒性和可靠性。通过构建高质量的多模态安全数据集,可以训练出更安全、更可靠的AI系统,从而减少AI系统在实际应用中可能造成的危害。此外,该方法还可以推广到其他多模态任务中,例如自动驾驶、智能监控等。

📄 摘要(原文)

Multimodal large language models (MLLMs) are rapidly evolving, presenting increasingly complex safety challenges. However, current dataset construction methods, which are risk-oriented, fail to cover the growing complexity of real-world multimodal safety scenarios (RMS). And due to the lack of a unified evaluation metric, their overall effectiveness remains unproven. This paper introduces a novel image-oriented self-adaptive dataset construction method for RMS, which starts with images and end constructing paired text and guidance responses. Using the image-oriented method, we automatically generate an RMS dataset comprising 35k image-text pairs with guidance responses. Additionally, we introduce a standardized safety dataset evaluation metric: fine-tuning a safety judge model and evaluating its capabilities on other safety datasets.Extensive experiments on various tasks demonstrate the effectiveness of the proposed image-oriented pipeline. The results confirm the scalability and effectiveness of the image-oriented approach, offering a new perspective for the construction of real-world multimodal safety datasets.