ExpSpeech-Net: Multimodal Fusion of Expression and Speech for Deepfake Detection

📄 arXiv: 2606.05760v1 📥 PDF

作者: Ruchika Sharma, Rudresh Dwivedi

分类: cs.CV

发布日期: 2026-06-04


💡 一句话要点

提出ExpSpeech-Net以解决深伪视频检测的效率问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 深伪检测 多模态融合 轻量化模型 特征选择 SqueezeNet 递归神经网络 实时检测

📋 核心要点

  1. 现有深伪检测方法多依赖复杂模型,导致资源消耗大且实时性差,难以满足实际应用需求。
  2. 本文提出的ExpSpeech-Net模型通过结合SqueezeNet和RNN,轻量化设计实现了面部表情与语音模式的多模态分析。
  3. 实验结果显示,该模型在准确率、精确率和F-measure等指标上均优于传统方法,验证了其有效性。

📝 摘要(中文)

深伪视频日益挑战在线内容的可信度,现有检测方法多依赖复杂且资源密集的模型,限制了其实用性。本文提出了ExpSpeech-Net深伪检测模型,利用SqueezeNet和递归神经网络(RNN)作为骨干,提供了一种轻量高效的深伪检测框架,能够同时分析面部表情和语音模式。该方法结合了先进的特征提取技术,如基于ISLBT的图像特征和MPNCC信号特征,并采用智能特征选择策略SASMA,确保检测模型的输入最优平衡。通过结合SqueezeNet和RNN,能够有效捕捉深伪视频中的细微不一致性。该框架实现了94.5%的准确率、99.3%的精确率和96.8%的F-measure,超越了传统方法,表明多模态融合与智能预处理及特征选择的结合使得深伪检测在实际应用中更为可行。

🔬 方法详解

问题定义:本文旨在解决深伪视频检测中的效率和准确性问题。现有方法往往依赖于复杂的模型,导致其在实际应用中的局限性。

核心思路:ExpSpeech-Net模型通过结合SqueezeNet和RNN,利用轻量化设计实现高效的多模态分析,能够同时处理面部表情和语音特征,从而提高检测的准确性和实时性。

技术框架:该框架主要包括特征提取模块、特征选择模块和检测模块。特征提取采用ISLBT和MPNCC技术,特征选择使用SASMA算法,最后通过SqueezeNet和RNN进行深伪检测。

关键创新:最重要的创新在于将多模态特征融合与智能特征选择相结合,显著提升了深伪检测的准确性和效率。这一方法与传统单一模态检测方法有本质区别。

关键设计:模型中采用SqueezeNet作为主干网络,结合RNN处理时序信息,损失函数设计为适应多模态输入,确保特征提取和选择的高效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ExpSpeech-Net模型在深伪检测任务中取得了94.5%的准确率、99.3%的精确率和96.8%的F-measure,显著优于传统检测方法,展示了多模态融合与智能特征选择的有效性。

🎯 应用场景

该研究的潜在应用领域包括社交媒体内容审核、视频监控和在线教育等场景。通过提供高效的深伪检测工具,可以有效维护在线内容的可信度,减少虚假信息的传播,具有重要的社会价值和实际意义。

📄 摘要(原文)

Deepfake videos are increasingly challenging the credibility of online content. Many existing detection methodology relies on complex, resource-intensive models, which limit their practical use. The study introduces the ExpSpeech-Net deepfake detection (SqN-R-DFD) model, which utilizes SqueezeNet and RNN (Recurrent Neural Network) as its backbone, providing a lightweight and efficient deepfake detection framework that simultaneously analyzes facial expressions and speech patterns. The approach incorporates advanced feature extraction, such as ISLBT-based features for image and MPNCC for signals, along with a smart feature-selection strategy using SASMA (Sandpiper-Assisted Slime Mould Algorithm), ensuring optimal and balanced input to the detection models. By combining SqueezeNet and an RNN, subtle inconsistencies in deepfake videos are captured effectively. The framework achieves 94.5% accuracy, precision of 99.3%, and F-measure of 96.8%, outperforming conventional methods. This demonstrates that integrating multiple modalities with intelligent preprocessing and feature selection enables practical, real-time deepfake detection suitable for everyday applications.