Self-adaptive Dataset Construction for Real-World Multimodal Safety Scenarios

作者: Jingen Qu, Lijun Li, Bo Zhang, Yichen Yan, Jing Shao

分类: cs.CV, cs.CL, cs.CR

发布日期: 2026-02-28

💡 一句话要点

提出图像驱动的自适应数据集构建方法，用于解决真实世界多模态安全场景问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态安全 数据集构建 图像驱动 自适应学习 安全评估

📋 核心要点

现有数据集构建方法难以覆盖真实世界多模态安全场景的复杂性，且缺乏统一的评估标准。
提出一种图像驱动的自适应数据集构建方法，从图像出发，自动生成包含文本和指导响应的数据集。
实验表明，该方法具有良好的可扩展性和有效性，为多模态安全数据集构建提供新思路。

📝 摘要（中文）

多模态大型语言模型（MLLM）正在快速发展，带来了日益复杂的安全挑战。然而，目前以风险为导向的数据集构建方法未能覆盖真实世界多模态安全场景（RMS）日益增长的复杂性。并且，由于缺乏统一的评估指标，它们的整体有效性仍未得到证实。本文介绍了一种新颖的、面向图像的自适应数据集构建方法，用于RMS，该方法从图像开始，最终构建配对的文本和指导响应。使用这种面向图像的方法，我们自动生成了一个包含3.5万个图像-文本对以及指导响应的RMS数据集。此外，我们引入了一个标准化的安全数据集评估指标：微调一个安全判断模型，并评估其在其他安全任务上的能力。在各种任务上的实验证明了所提出的面向图像的流程的有效性。结果证实了面向图像的方法的可扩展性和有效性，为构建真实世界多模态安全数据集提供了一个新的视角。该数据集可在[链接]获取。

🔬 方法详解

问题定义：当前多模态大型语言模型面临着日益复杂的安全挑战，而现有的数据集构建方法主要以风险为导向，无法充分覆盖真实世界多模态安全场景（RMS）的复杂性。此外，缺乏统一的评估指标来衡量数据集的质量和有效性，导致难以评估和改进数据集构建方法。

核心思路：论文的核心思路是采用一种图像驱动的自适应数据集构建方法。与传统的文本驱动方法不同，该方法从图像入手，利用图像的丰富信息来生成相应的文本描述和指导响应。这种方法能够更好地捕捉真实世界场景的复杂性和多样性，从而构建更具代表性的安全数据集。

技术框架：该方法主要包含以下几个阶段：1) 图像采集：收集包含各种安全相关场景的图像数据。2) 文本生成：利用图像描述模型或人工标注生成与图像内容相关的文本描述。3) 指导响应生成：根据图像和文本描述，生成相应的指导响应，例如安全建议或警告。4) 数据集评估：使用提出的标准化安全数据集评估指标，微调一个安全判断模型，并评估其在其他安全任务上的性能。

关键创新：该方法最重要的技术创新点在于采用了图像驱动的数据集构建方式。与传统的文本驱动方法相比，图像驱动方法能够更好地捕捉真实世界场景的复杂性和多样性，从而构建更具代表性的安全数据集。此外，论文还提出了一个标准化的安全数据集评估指标，为评估和改进数据集构建方法提供了依据。

关键设计：在图像采集阶段，需要考虑场景的多样性和覆盖范围，例如包含交通、医疗、工业等不同领域的安全场景。在文本生成阶段，可以使用预训练的图像描述模型，并结合人工标注进行修正和补充。在指导响应生成阶段，可以利用大型语言模型生成安全建议或警告，并进行人工审核和修改。提出的标准化安全数据集评估指标，通过微调安全判断模型，并评估其在其他安全任务上的性能，来衡量数据集的质量。

🖼️ 关键图片

📊 实验亮点

论文构建了一个包含3.5万个图像-文本对以及指导响应的RMS数据集，并提出了一个标准化的安全数据集评估指标。实验结果表明，所提出的图像驱动方法能够有效地提升多模态大型语言模型在安全任务上的性能，为构建真实世界多模态安全数据集提供了一个新的视角。

🎯 应用场景

该研究成果可应用于提升多模态大型语言模型在安全领域的性能，例如自动驾驶、智能监控、医疗诊断等。通过构建更具代表性的安全数据集，可以提高模型对真实世界安全风险的识别和应对能力，从而减少事故发生，保障人身安全。未来，该方法可以推广到其他多模态任务中，例如视频理解、机器人导航等。

📄 摘要（原文）

Multimodal large language models (MLLMs) are rapidly evolving, presenting increasingly complex safety challenges. However, current dataset construction methods, which are risk-oriented, fail to cover the growing complexity of real-world multimodal safety scenarios (RMS). And due to the lack of a unified evaluation metric, their overall effectiveness remains unproven. This paper introduces a novel image-oriented self-adaptive dataset construction method for RMS, which starts with images and end constructing paired text and guidance responses. Using the image-oriented method, we automatically generate an RMS dataset comprising 35k image-text pairs with guidance responses. Additionally, we introduce a standardized safety dataset evaluation metric: fine-tuning a safety judge model and evaluating its capabilities on other safetythis http URLexperiments on various tasks demonstrate the effectiveness of the proposed image-oriented pipeline. The results confirm the scalability and effectiveness of the image-oriented approach, offering a new perspective for the construction of real-world multimodal safety datasets. The dataset is presented atthis https URL.

Self-adaptive Dataset Construction for Real-World Multimodal Safety Scenarios

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理