Consistency-aware Fake Videos Detection on Short Video Platforms
作者: Junxi Wang, Jize liu, Na Zhang, Yaxiong Wang
分类: cs.CV, cs.MM
发布日期: 2025-04-30
备注: 2025 icic
💡 一句话要点
提出一致性感知的伪造视频检测方法,利用跨模态矛盾提升短视频平台假新闻识别精度。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 伪造视频检测 短视频平台 跨模态一致性 多模态融合 假新闻检测 协同注意力机制 大型语言模型
📋 核心要点
- 现有短视频假新闻检测方法忽略了内容篡改导致的跨模态不一致性,导致检测精度受限。
- 提出一种新的检测范式,显式地识别和利用跨模态矛盾作为判别线索,提升检测性能。
- 在FakeSV和FakeTT数据集上的实验表明,该模型在伪造视频检测方面表现出优异的性能。
📝 摘要(中文)
本文致力于检测短视频平台上的虚假新闻。尽管近年来针对此任务的研究投入巨大并取得了显著进展,但由于内容操纵和生成技术的快速发展,当前的检测精度仍然不尽如人意。现有方法通常采用跨模态融合策略,直接将原始视频数据与元数据输入相结合,然后应用分类层。然而,我们的经验观察揭示了一个关键疏忽:被操纵的内容经常表现出模态间的不一致性,这些不一致性可以作为有价值的判别特征,但在当前的检测框架中却未得到充分利用。受此启发,我们提出了一种新的检测范式,该范式明确地识别和利用跨模态矛盾作为判别线索。我们的方法包括两个核心模块:跨模态一致性学习(CMCL)和多模态协同诊断(MMCD)。CMCL包括伪标签生成(PLG)和跨模态一致性诊断(CMCD)。在PLG中,使用多模态大型语言模型来生成伪标签,用于评估跨模态语义一致性。然后,CMCD提取[CLS]令牌并计算余弦损失以量化跨模态不一致性。MMCD通过多模态特征融合(MFF)和概率分数融合(PSF)进一步整合多模态特征。MFF采用协同注意力机制来增强不同模态之间的语义交互,而Transformer用于全面的特征融合。同时,PSF进一步整合了先前步骤中获得的虚假新闻概率分数。在已建立的基准(FakeSV和FakeTT)上进行的大量实验表明,我们的模型在虚假视频检测方面表现出出色的性能。
🔬 方法详解
问题定义:当前短视频平台上的假新闻检测方法,主要通过直接融合视频数据和元数据进行分类,忽略了篡改内容中存在的跨模态不一致性。这种忽略导致现有方法无法充分利用这些有价值的判别特征,从而限制了检测精度。
核心思路:论文的核心思路是显式地识别和利用跨模态矛盾作为判别线索。通过学习和诊断不同模态之间的一致性,模型能够更有效地识别被篡改的视频内容。这种方法的设计基于一个观察:篡改通常会在不同模态之间引入不一致性,例如视频内容与标题描述不符。
技术框架:整体框架包含两个核心模块:跨模态一致性学习(CMCL)和多模态协同诊断(MMCD)。CMCL模块包括伪标签生成(PLG)和跨模态一致性诊断(CMCD)。PLG使用多模态大型语言模型生成伪标签,用于评估跨模态语义一致性。CMCD提取[CLS]令牌并计算余弦损失以量化跨模态不一致性。MMCD模块通过多模态特征融合(MFF)和概率分数融合(PSF)进一步整合多模态特征。MFF采用协同注意力机制来增强不同模态之间的语义交互,Transformer用于全面的特征融合。PSF进一步整合了先前步骤中获得的虚假新闻概率分数。
关键创新:最重要的技术创新点在于显式地建模和利用跨模态不一致性。与现有方法直接融合多模态特征不同,该方法首先关注不同模态之间的一致性,并将不一致性作为重要的判别特征。这种方法能够更有效地捕捉到篡改的痕迹,从而提高检测精度。
关键设计:PLG模块使用多模态大型语言模型生成伪标签,用于评估跨模态语义一致性。CMCD模块提取[CLS]令牌并计算余弦损失以量化跨模态不一致性。MFF模块采用协同注意力机制来增强不同模态之间的语义交互。损失函数包括用于量化跨模态不一致性的余弦损失,以及用于最终分类的交叉熵损失。
📊 实验亮点
论文在FakeSV和FakeTT两个基准数据集上进行了实验,结果表明该模型在伪造视频检测方面表现出出色的性能。具体提升幅度未知,但摘要中强调了“outstanding performance”,表明相较于现有方法有显著提升。
🎯 应用场景
该研究成果可应用于短视频平台的内容安全审核,有效识别和过滤虚假新闻,维护平台内容生态的健康。此外,该方法也可推广到其他多模态信息检测场景,例如社交媒体内容分析、在线广告欺诈检测等,具有广泛的应用前景。
📄 摘要(原文)
This paper focuses to detect the fake news on the short video platforms. While significant research efforts have been devoted to this task with notable progress in recent years, current detection accuracy remains suboptimal due to the rapid evolution of content manipulation and generation technologies. Existing approaches typically employ a cross-modal fusion strategy that directly combines raw video data with metadata inputs before applying a classification layer. However, our empirical observations reveal a critical oversight: manipulated content frequently exhibits inter-modal inconsistencies that could serve as valuable discriminative features, yet remain underutilized in contemporary detection frameworks. Motivated by this insight, we propose a novel detection paradigm that explicitly identifies and leverages cross-modal contradictions as discriminative cues. Our approach consists of two core modules: Cross-modal Consistency Learning (CMCL) and Multi-modal Collaborative Diagnosis (MMCD). CMCL includes Pseudo-label Generation (PLG) and Cross-modal Consistency Diagnosis (CMCD). In PLG, a Multimodal Large Language Model is used to generate pseudo-labels for evaluating cross-modal semantic consistency. Then, CMCD extracts [CLS] tokens and computes cosine loss to quantify cross-modal inconsistencies. MMCD further integrates multimodal features through Multimodal Feature Fusion (MFF) and Probability Scores Fusion (PSF). MFF employs a co-attention mechanism to enhance semantic interactions across different modalities, while a Transformer is utilized for comprehensive feature fusion. Meanwhile, PSF further integrates the fake news probability scores obtained in the previous step. Extensive experiments on established benchmarks (FakeSV and FakeTT) demonstrate our model exhibits outstanding performance in Fake videos detection.