Coarse-to-Fine Proposal Refinement Framework for Audio Temporal Forgery Detection and Localization

📄 arXiv: 2407.16554v1 📥 PDF

作者: Junyan Wu, Wei Lu, Xiangyang Luo, Rui Yang, Qian Wang, Xiaochun Cao

分类: cs.MM, cs.CV, cs.SD, eess.AS

发布日期: 2024-07-23

备注: 9pages, 3figures. This paper has been accepted for ACM MM 2024

DOI: 10.1145/3664647.3680585


💡 一句话要点

提出粗到精的音频时间伪造检测与定位框架,解决现有方法无法定位篡改片段的问题。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 音频伪造检测 时间定位 粗到精框架 对比学习 边界感知 音频取证

📋 核心要点

  1. 现有音频伪造检测方法主要集中于分类,缺乏对伪造片段起始和结束时间戳的精确定位能力。
  2. 论文提出粗到精的提议细化框架(CFPRF),通过帧级别检测和提议细化网络实现精准的时间伪造检测与定位。
  3. 实验结果表明,CFPRF在多个数据集上取得了state-of-the-art的性能,验证了其有效性。

📝 摘要(中文)

本文提出了一种新颖的粗到精的音频时间伪造检测与定位框架(CFPRF),旨在应对音频局部伪造带来的挑战。该框架包含一个帧级别检测网络(FDN)和一个提议细化网络(PRN)。FDN旨在挖掘真实帧和伪造帧之间信息量丰富的非一致性线索,以获得判别性特征,从而粗略地指示伪造区域。PRN负责预测置信度分数和回归偏移量,以细化从FDN获得的粗粒度提议。为了学习鲁棒的判别性特征,我们设计了一个差异感知特征学习(DAFL)模块,该模块由对比表示学习引导,以扩大由微小操作引起的不同帧之间的敏感差异。我们进一步设计了一个边界感知特征增强(BAFE)模块,以捕获多个过渡边界的上下文信息,并通过交叉注意力机制引导边界信息和时间特征之间的交互。大量实验表明,我们的CFPRF在LAV-DF、ASVS2019PS和HAD等各种数据集上实现了最先进的性能。

🔬 方法详解

问题定义:音频时间伪造检测旨在识别音频中被篡改的部分,并确定其起始和结束时间。现有方法主要关注音频真伪的分类,无法精确定位篡改发生的时间范围,这限制了其在实际应用中的价值。此外,细微的篡改操作使得检测更具挑战性。

核心思路:本文的核心思路是采用粗到精的策略,首先通过帧级别检测网络(FDN)粗略定位可能的伪造区域,然后利用提议细化网络(PRN)对这些区域进行精细调整,从而实现准确的时间定位。这种方法借鉴了目标检测领域的思想,将其应用于音频时间序列分析。

技术框架:CFPRF框架主要包含两个阶段:帧级别检测(FDN)和提议细化(PRN)。FDN首先提取音频帧的特征,并通过分类器判断每一帧是否为伪造。然后,根据FDN的输出生成一系列粗略的伪造区域提议。PRN接收这些提议,并预测每个提议的置信度分数和回归偏移量,用于调整提议的边界,最终得到精确的伪造时间范围。

关键创新:论文的关键创新在于DAFL(Difference-Aware Feature Learning)和BAFE(Boundary-Aware Feature Enhancement)模块的设计。DAFL模块通过对比学习,增强了真实帧和伪造帧之间的特征差异,使得模型更容易区分细微的篡改。BAFE模块则关注篡改边界的上下文信息,利用交叉注意力机制将边界信息融入到时间特征中,从而提高边界定位的准确性。

关键设计:DAFL模块使用对比损失函数,鼓励模型学习区分真实帧和伪造帧的表示。BAFE模块使用Transformer中的交叉注意力机制,将边界上下文信息与时间特征进行融合。PRN使用回归损失函数来优化提议的边界偏移量。具体的网络结构和参数设置在论文中有详细描述,例如卷积核大小、通道数、注意力头的数量等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CFPRF在LAV-DF、ASVS2019PS和HAD等多个数据集上取得了state-of-the-art的性能。例如,在LAV-DF数据集上,CFPRF的检测精度相比现有最佳方法提升了显著百分比(具体数值需查阅论文)。实验结果充分证明了DAFL和BAFE模块的有效性,以及粗到精框架的优越性。

🎯 应用场景

该研究成果可应用于音频取证、版权保护、新闻真实性验证等领域。通过自动检测和定位音频篡改,可以有效防止虚假信息的传播,维护社会诚信。未来,该技术有望与语音识别、说话人识别等技术结合,实现更智能化的音频安全解决方案。

📄 摘要(原文)

Recently, a novel form of audio partial forgery has posed challenges to its forensics, requiring advanced countermeasures to detect subtle forgery manipulations within long-duration audio. However, existing countermeasures still serve a classification purpose and fail to perform meaningful analysis of the start and end timestamps of partial forgery segments. To address this challenge, we introduce a novel coarse-to-fine proposal refinement framework (CFPRF) that incorporates a frame-level detection network (FDN) and a proposal refinement network (PRN) for audio temporal forgery detection and localization. Specifically, the FDN aims to mine informative inconsistency cues between real and fake frames to obtain discriminative features that are beneficial for roughly indicating forgery regions. The PRN is responsible for predicting confidence scores and regression offsets to refine the coarse-grained proposals derived from the FDN. To learn robust discriminative features, we devise a difference-aware feature learning (DAFL) module guided by contrastive representation learning to enlarge the sensitive differences between different frames induced by minor manipulations. We further design a boundary-aware feature enhancement (BAFE) module to capture the contextual information of multiple transition boundaries and guide the interaction between boundary information and temporal features via a cross-attention mechanism. Extensive experiments show that our CFPRF achieves state-of-the-art performance on various datasets, including LAV-DF, ASVS2019PS, and HAD.