Training-Free and Interpretable Hateful Video Detection via Multi-stage Adversarial Reasoning

作者: Shuonan Yang, Yuchen Zhang, Zeyu Fu

分类: cs.CV

发布日期: 2026-01-21

备注: Accepted at ICASSP 2026. \c{opyright} 2026 IEEE. This is the author accepted manuscript. The final published version will be available via IEEE Xplore

🔗 代码/项目: GITHUB

💡 一句话要点

提出MARS：一种免训练且可解释的多阶段对抗推理框架，用于检测仇恨视频。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 仇恨视频检测 免训练学习 可解释性 对抗推理 多模态分析

📋 核心要点

现有仇恨视频检测方法依赖大量训练数据，泛化性差，且缺乏可解释性，难以满足实际应用需求。
MARS框架通过多阶段对抗推理，模拟人类思考过程，从不同角度分析视频内容，做出可解释的判断。
实验结果表明，MARS在免训练的情况下，性能优于现有免训练方法，并在部分数据集上超越了有监督方法。

📝 摘要（中文）

仇恨视频通过放大歧视、煽动暴力和破坏在线安全构成严重风险。现有的基于训练的仇恨视频检测方法受到有限训练数据的约束，并且缺乏可解释性，而直接提示大型视觉-语言模型通常难以提供可靠的仇恨检测。为了解决这些挑战，本文提出了一种免训练的多阶段对抗推理框架MARS，该框架能够实现可靠且可解释的仇恨内容检测。MARS首先客观地描述视频内容，为后续分析建立中立的基础。在此基础上，它开发了支持潜在仇恨解释的基于证据的推理，同时并行地结合反证据推理来捕捉合理的非仇恨视角。最后，这些视角被综合成一个结论性的和可解释的决策。在两个真实世界数据集上的广泛评估表明，与其他免训练方法相比，MARS在某些骨干网络和设置下实现了高达10%的改进，并且在一个数据集上优于最先进的基于训练的方法。此外，MARS产生人类可理解的理由，从而支持合规监督并提高内容审核工作流程的透明度。

🔬 方法详解

问题定义：现有基于训练的仇恨视频检测方法依赖于大量的标注数据，这在实际应用中往往难以获得。此外，这些方法通常缺乏可解释性，难以理解其判断依据。直接使用大型视觉-语言模型进行提示学习，虽然不需要训练，但检测结果的可靠性不高。因此，如何设计一种免训练、高性能且可解释的仇恨视频检测方法是一个重要的挑战。

核心思路：MARS的核心思路是模拟人类的推理过程，通过多阶段的对抗性推理来综合考虑视频内容的不同方面。首先，对视频内容进行客观描述，然后分别从支持仇恨和反对仇恨的角度进行推理，最后综合这些推理结果做出判断。这种方法旨在提高检测的准确性和可解释性。

技术框架：MARS框架包含以下几个主要阶段： 1. 客观描述：使用视觉-语言模型对视频内容进行客观描述，建立中立的基础。 2. 证据推理：从支持仇恨的角度出发，寻找视频中可能被解释为仇恨的证据。 3. 反证据推理：从反对仇恨的角度出发，寻找视频中可能被解释为非仇恨的证据。 4. 综合决策：综合证据推理和反证据推理的结果，做出最终的仇恨判断，并提供可解释的理由。

关键创新：MARS的关键创新在于其多阶段对抗推理框架。与传统的单阶段方法不同，MARS通过多阶段的推理过程，更全面地考虑了视频内容的不同方面。此外，MARS的对抗性推理机制能够有效地平衡支持和反对仇恨的证据，从而提高检测的准确性和鲁棒性。最重要的是，MARS是免训练的，避免了对大量标注数据的依赖。

关键设计：MARS的关键设计包括： 1. 使用预训练的视觉-语言模型（如CLIP）进行视频内容的客观描述。 2. 设计专门的提示模板，引导视觉-语言模型进行证据推理和反证据推理。 3. 使用加权平均或投票机制综合证据推理和反证据推理的结果。 4. 通过生成自然语言解释，提高模型的可解释性。具体的参数设置和网络结构取决于所使用的视觉-语言模型和提示模板。

🖼️ 关键图片

📊 实验亮点

MARS在两个真实世界数据集上进行了广泛评估，结果表明，与其他免训练方法相比，MARS在某些骨干网络和设置下实现了高达10%的改进。此外，MARS在一个数据集上优于最先进的基于训练的方法。更重要的是，MARS能够生成人类可理解的理由，提高了模型的可解释性。

🎯 应用场景

MARS可应用于在线视频平台的内容审核，自动检测和过滤仇恨视频，维护健康的在线环境。该方法的可解释性有助于人工审核员理解模型的判断依据，提高审核效率。此外，MARS还可用于社交媒体监控、舆情分析等领域，及时发现和应对潜在的仇恨言论。

📄 摘要（原文）

Hateful videos pose serious risks by amplifying discrimination, inciting violence, and undermining online safety. Existing training-based hateful video detection methods are constrained by limited training data and lack of interpretability, while directly prompting large vision-language models often struggle to deliver reliable hate detection. To address these challenges, this paper introduces MARS, a training-free Multi-stage Adversarial ReaSoning framework that enables reliable and interpretable hateful content detection. MARS begins with the objective description of video content, establishing a neutral foundation for subsequent analysis. Building on this, it develops evidence-based reasoning that supports potential hateful interpretations, while in parallel incorporating counter-evidence reasoning to capture plausible non-hateful perspectives. Finally, these perspectives are synthesized into a conclusive and explainable decision. Extensive evaluation on two real-world datasets shows that MARS achieves up to 10% improvement under certain backbones and settings compared to other training-free approaches and outperforms state-of-the-art training-based methods on one dataset. In addition, MARS produces human-understandable justifications, thereby supporting compliance oversight and enhancing the transparency of content moderation workflows. The code is available at https://github.com/Multimodal-Intelligence-Lab-MIL/MARS.

Training-Free and Interpretable Hateful Video Detection via Multi-stage Adversarial Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理