Self-adaptive Dataset Construction for Real-World Multimodal Safety Scenarios

📄 arXiv: 2509.04403v1 📥 PDF

作者: Jingen Qu, Lijun Li, Bo Zhang, Yichen Yan, Jing Shao

分类: cs.CV, cs.CL, cs.CR

发布日期: 2025-09-04

备注: Accepted at EMNLP 2025 Findings


💡 一句话要点

提出图像驱动的自适应数据集构建方法,应对真实世界多模态安全场景挑战

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态安全 数据集构建 图像驱动 自适应学习 安全评估

📋 核心要点

  1. 现有数据集构建方法难以覆盖真实世界多模态安全场景的复杂性,且缺乏统一的评估标准。
  2. 论文提出一种面向图像的自适应数据集构建方法,自动生成包含图像、文本和指导响应的安全数据集。
  3. 实验结果表明,该方法具有良好的可扩展性和有效性,为多模态安全数据集构建提供新思路。

📝 摘要(中文)

多模态大型语言模型(MLLMs)正在快速发展,带来了日益复杂的安全挑战。然而,目前以风险为导向的数据集构建方法无法覆盖日益增长的真实世界多模态安全场景(RMS)的复杂性。并且,由于缺乏统一的评估指标,它们的整体有效性仍未得到证实。本文介绍了一种新颖的面向图像的自适应数据集构建方法,用于RMS,该方法从图像开始,最终构建配对的文本和指导响应。使用这种面向图像的方法,我们自动生成了一个包含35k图像-文本对以及指导响应的RMS数据集。此外,我们引入了一个标准化的安全数据集评估指标:微调一个安全判断模型,并评估其在其他安全数据集上的能力。在各种任务上进行的大量实验证明了所提出的面向图像的流程的有效性。结果证实了面向图像的方法的可扩展性和有效性,为构建真实世界多模态安全数据集提供了一个新的视角。

🔬 方法详解

问题定义:当前的多模态大型语言模型面临着日益复杂的安全挑战,而现有的数据集构建方法主要以风险为导向,无法充分覆盖真实世界中复杂多变的多模态安全场景。此外,缺乏统一的评估指标来衡量数据集的质量和有效性,使得数据集的构建和选择面临困难。

核心思路:论文的核心思路是从图像出发,构建多模态安全数据集。这种“图像驱动”的方法能够更好地捕捉真实世界场景的复杂性和多样性。通过图像生成相应的文本描述和指导响应,可以更有效地训练模型识别和处理潜在的安全风险。

技术框架:该方法包含以下几个主要阶段:1) 图像采集:收集包含各种潜在安全风险的图像。2) 文本生成:利用图像描述模型为每张图像生成相应的文本描述。3) 指导响应生成:针对图像和文本,生成相应的指导响应,例如安全建议或警告。4) 数据集构建:将图像、文本和指导响应组成数据集。5) 安全判断模型微调与评估:使用构建的数据集微调安全判断模型,并在其他安全数据集上进行评估。

关键创新:该方法最重要的创新点在于其“图像驱动”的数据集构建方式。与传统的“风险驱动”方法相比,该方法能够更全面地覆盖真实世界场景,并减少人工标注的成本。此外,论文还提出了一个标准化的安全数据集评估指标,为数据集的质量评估提供了依据。

关键设计:论文中关键的设计包括:图像描述模型的选择(需要能够准确描述图像内容),指导响应生成策略(需要能够提供有效的安全建议),以及安全判断模型的选择和微调方法(需要能够准确识别安全风险)。具体参数设置和损失函数等细节在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该论文构建了一个包含35k图像-文本对以及指导响应的真实世界多模态安全场景数据集。通过在该数据集上微调安全判断模型,并在其他安全数据集上进行评估,验证了该方法的有效性和可扩展性。具体的性能数据和提升幅度在摘要中未明确给出,属于未知信息。

🎯 应用场景

该研究成果可应用于多模态大型语言模型的安全训练和评估,提高模型在真实世界场景中的安全性和可靠性。例如,可以用于构建自动驾驶、智能监控等系统的安全数据集,提升这些系统在复杂环境下的安全性能。此外,该方法还可以推广到其他多模态任务中,例如图像检索、视频理解等。

📄 摘要(原文)

Multimodal large language models (MLLMs) are rapidly evolving, presenting increasingly complex safety challenges. However, current dataset construction methods, which are risk-oriented, fail to cover the growing complexity of real-world multimodal safety scenarios (RMS). And due to the lack of a unified evaluation metric, their overall effectiveness remains unproven. This paper introduces a novel image-oriented self-adaptive dataset construction method for RMS, which starts with images and end constructing paired text and guidance responses. Using the image-oriented method, we automatically generate an RMS dataset comprising 35k image-text pairs with guidance responses. Additionally, we introduce a standardized safety dataset evaluation metric: fine-tuning a safety judge model and evaluating its capabilities on other safety datasets.Extensive experiments on various tasks demonstrate the effectiveness of the proposed image-oriented pipeline. The results confirm the scalability and effectiveness of the image-oriented approach, offering a new perspective for the construction of real-world multimodal safety datasets.