Sens-VisualNews: A Benchmark Dataset for Sensational Image Detection

📄 arXiv: 2605.10394v1 📥 PDF

作者: Andreas Goulas, Damianos Galanopoulos, Evlampios Apostolidis, Vasileios Mezaris

分类: cs.CV

发布日期: 2026-05-11

备注: Authors' Accepted Version; Accepted at IEEE ICIP 2026


💡 一句话要点

提出Sens-VisualNews基准数据集,以推动新闻图像中煽动性内容检测的研究

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 煽动性图像检测 多模态大模型 基准数据集 计算新闻学 情感计算 虚假信息检测

📋 核心要点

  1. 煽动性内容易引发生理唤醒并加速虚假信息传播,但目前缺乏专门针对新闻图像煽动性特征的系统性检测基准与研究。
  2. 论文定义了煽动性图像检测任务,并构建了包含9,576张标注图像的Sens-VisualNews数据集,涵盖多种煽动性概念与事件。
  3. 通过对多种开源多模态大模型进行零样本与微调实验,量化了模型在处理此类复杂情感与语义任务时的性能表现与鲁棒性。

📝 摘要(中文)

媒体内容中煽动性信息的检测是识别高价值新闻及标记潜在虚假信息的关键过滤机制,因为此类内容常引发生理唤醒,从而绕过受众的批判性评估并加速病毒式传播。本文正式提出了“煽动性图像检测”任务,旨在识别图像中是否包含旨在吸引注意力并触发强烈情绪反应的令人震惊、挑衅或情绪化的特征。为支持该领域研究,我们构建了名为Sens-VisualNews的基准数据集,包含9,576张新闻图像,并基于视觉内容中煽动性概念与事件的存在与否进行了标注。最后,我们利用该数据集评估了多种开源前沿多模态大模型(MLLMs)在零样本及微调设置下的提示词敏感度、性能表现与鲁棒性。

🔬 方法详解

问题定义:论文旨在解决新闻媒体中“煽动性图像”的自动检测问题。现有研究多关注文本虚假信息或通用图像分类,缺乏针对图像视觉特征如何诱导受众情绪唤醒、进而导致信息病毒式传播的专门化研究。

核心思路:通过构建高质量、多标签的基准数据集,将煽动性检测转化为多模态语义理解任务。核心逻辑在于利用多模态大模型(MLLMs)的跨模态对齐能力,捕捉图像中隐含的挑衅性、震惊性视觉语义。

技术框架:研究流程包括数据集构建(数据采集、人工标注、概念定义)与模型评估两阶段。评估框架涵盖了从零样本提示(Zero-shot Prompting)到全参数或高效微调(Fine-tuning)的多种范式,旨在对比不同架构模型在特定领域任务上的泛化能力。

关键创新:首次提出了针对新闻图像煽动性检测的标准化基准,填补了视觉情感计算与虚假信息检测交叉领域的空白。通过引入多模态大模型进行基准测试,揭示了模型对提示词(Prompt)的敏感度差异。

关键设计:数据集构建采用细粒度标注策略,涵盖了多种煽动性概念。在评估阶段,重点考察了模型在不同提示策略下的鲁棒性,并分析了模型在处理具有高度主观性和情绪色彩的视觉内容时的性能瓶颈。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验通过对多种开源多模态大模型进行全面基准测试,揭示了模型在煽动性检测任务中的性能边界。结果表明,尽管MLLMs在通用视觉任务表现优异,但在处理高度主观的煽动性语义时仍存在显著的提示词敏感性。研究量化了微调策略对提升模型鲁棒性的具体贡献,为后续相关算法的优化提供了基准参考。

🎯 应用场景

该研究可广泛应用于新闻聚合平台与社交媒体的内容审核系统,作为识别潜在虚假信息、过滤极端煽动性内容的预警工具。此外,它在计算社会学领域具有重要价值,有助于量化分析视觉媒体如何通过情绪操纵影响公众舆论,为构建更健康的数字信息生态提供技术支撑。

📄 摘要(原文)

The detection of sensational content in media items can be a critical filtering mechanism for identifying check-worthy content and flagging potential disinformation, since such content triggers physiological arousal that often bypasses critical evaluation and accelerates viral sharing. In this paper we introduce the task of sensational image detection, which aims to determine whether an image contains shocking, provocative, or emotionally charged features to grab attention and trigger strong emotional responses. To support research on this task, we create a new benchmark dataset (called Sens-VisualNews) that contains 9,576 images from news items, annotated based on the (in-)existence of various sensational concepts and events in their visual content. Finally, using Sens-VisualNews, we study the prompt sensitivity, performance and robustness of a wide range of open SotA Multimodal LLMs, across both zero-shot and fine-tuned settings.