Benchmarking Cross-Domain Audio-Visual Deception Detection

📄 arXiv: 2405.06995v3 📥 PDF

作者: Xiaobao Guo, Zitong Yu, Nithish Muthuchamy Selvaraj, Bingquan Shen, Adams Wai-Kin Kong, Alex C. Kot

分类: cs.SD, cs.CV, cs.MM, eess.AS

发布日期: 2024-05-11 (更新: 2025-07-24)

备注: 15 pages


💡 一句话要点

提出跨域视听欺骗检测基准,并设计MM-IDGM算法提升泛化性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视听欺骗检测 跨域泛化 多模态融合 领域自适应 梯度内积最大化

📋 核心要点

  1. 现有视听欺骗检测方法在不同场景下的泛化能力不足,限制了其在实际应用中的效果。
  2. 论文提出跨域视听欺骗检测基准,并设计MM-IDGM算法,通过最大化模态编码器之间的梯度内积来提升泛化性能。
  3. 实验表明,提出的MM-IDGM算法和Attention-Mixer融合方法能够有效提高跨域欺骗检测的性能。

📝 摘要(中文)

自动欺骗检测对于辅助人们准确评估真实性和识别欺骗行为至关重要。传统的接触式技术,如测谎仪,依赖生理信号来确定个人陈述的真实性。然而,自动欺骗检测的最新进展表明,从音频和视频模态导出的多模态特征可能优于人类观察者。尽管有这些积极的发现,但现有视听欺骗检测方法在不同场景中的泛化能力在很大程度上仍未被探索。为了弥合这一差距,我们提出了第一个跨域视听欺骗检测基准,使我们能够评估这些方法在实际场景中的泛化能力。我们使用广泛采用的音频和视频特征以及不同的架构进行基准测试,比较单域到单域和多域到单域的泛化性能。为了进一步利用来自多个源域的数据进行训练的影响,我们研究了三种类型的域采样策略,包括域同步、域交替和域逐个用于多域到单域泛化评估。我们还提出了一种算法,通过最大化模态编码器之间的梯度内积来提高泛化性能,命名为“MM-IDGM”。此外,我们提出了Attention-Mixer融合方法来提高性能,我们相信这个新的跨域基准将促进未来在视听欺骗检测方面的研究。

🔬 方法详解

问题定义:现有视听欺骗检测方法在特定数据集上表现良好,但在跨域场景下泛化能力较差。这意味着模型在训练数据分布与测试数据分布不一致时,性能会显著下降。现有方法缺乏对跨域泛化能力的系统性评估和有效提升策略。

核心思路:论文的核心思路是构建一个跨域视听欺骗检测基准,并提出一种新的算法MM-IDGM,通过最大化不同模态编码器之间的梯度内积,来学习领域不变的特征表示,从而提高模型的泛化能力。同时,提出Attention-Mixer融合方法,进一步提升性能。

技术框架:整体框架包括以下几个主要模块:1) 特征提取:使用预定义的音频和视频特征提取器提取多模态特征。2) 模态编码器:使用不同的神经网络架构(如LSTM、Transformer)对音频和视频特征进行编码。3) MM-IDGM:通过最大化模态编码器之间的梯度内积,学习领域不变的特征表示。4) Attention-Mixer:使用注意力机制融合多模态特征。5) 分类器:使用分类器(如全连接层)进行欺骗检测。

关键创新:论文的关键创新点在于:1) 提出了第一个跨域视听欺骗检测基准,为评估和比较不同方法的泛化能力提供了平台。2) 提出了MM-IDGM算法,通过最大化模态编码器之间的梯度内积,有效地学习领域不变的特征表示。3) 提出了Attention-Mixer融合方法,提升了多模态特征融合的效果。

关键设计:MM-IDGM算法的关键设计在于梯度内积最大化。具体来说,对于音频和视频模态的编码器,分别计算其损失函数关于编码器参数的梯度,然后计算这两个梯度向量的内积。通过最大化这个内积,可以使得两个模态的编码器学习到更加一致的特征表示,从而提高模型的泛化能力。Attention-Mixer融合方法使用注意力机制来动态地调整不同模态特征的权重,从而更好地融合多模态信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的MM-IDGM算法和Attention-Mixer融合方法在跨域视听欺骗检测任务上取得了显著的性能提升。具体来说,在多个跨域场景下,相比于基线方法,该方法在准确率和F1值等指标上均有明显提高。例如,在某个特定跨域场景下,准确率提升了5%以上。

🎯 应用场景

该研究成果可应用于安全领域,例如边境安全检查、机场安检等,辅助工作人员识别潜在的欺骗行为。此外,在商业谈判、招聘面试等场景中,也可以利用该技术来评估对方的真实意图,降低决策风险。未来,该技术有望与智能监控系统相结合,实现自动化欺骗检测。

📄 摘要(原文)

Automated deception detection is crucial for assisting humans in accurately assessing truthfulness and identifying deceptive behavior. Conventional contact-based techniques, like polygraph devices, rely on physiological signals to determine the authenticity of an individual's statements. Nevertheless, recent developments in automated deception detection have demonstrated that multimodal features derived from both audio and video modalities may outperform human observers on publicly available datasets. Despite these positive findings, the generalizability of existing audio-visual deception detection approaches across different scenarios remains largely unexplored. To close this gap, we present the first cross-domain audio-visual deception detection benchmark, that enables us to assess how well these methods generalize for use in real-world scenarios. We used widely adopted audio and visual features and different architectures for benchmarking, comparing single-to-single and multi-to-single domain generalization performance. To further exploit the impacts using data from multiple source domains for training, we investigate three types of domain sampling strategies, including domain-simultaneous, domain-alternating, and domain-by-domain for multi-to-single domain generalization evaluation. We also propose an algorithm to enhance the generalization performance by maximizing the gradient inner products between modality encoders, named ``MM-IDGM". Furthermore, we proposed the Attention-Mixer fusion method to improve performance, and we believe that this new cross-domain benchmark will facilitate future research in audio-visual deception detection.