MuDD: A Multimodal Deception Detection Dataset and GSR-Guided Progressive Distillation for Non-Contact Deception Detection
作者: Peiyuan Jiang, Yao Liu, Yanglei Gan, Jiaye Yang, Lu Liu, Daibing Yao, Qiao Liu
分类: cs.CV, cs.AI
发布日期: 2026-04-07
💡 一句话要点
提出MuDD数据集和GPD框架,用于非接触式多模态欺骗检测
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 欺骗检测 多模态学习 知识蒸馏 皮肤电反应 生理信号
📋 核心要点
- 现有非接触式欺骗检测方法依赖视觉和听觉线索,但这些线索缺乏稳定的跨个体泛化能力。
- 论文提出GSR引导的渐进蒸馏(GPD)框架,利用GSR提供的稳定生理信号,通过知识蒸馏提升非接触模态的欺骗检测性能。
- 论文构建了大规模多模态欺骗检测数据集MuDD,实验表明GPD在欺骗检测和隐藏数字识别任务上均优于现有方法。
📝 摘要(中文)
非接触式自动欺骗检测仍然具有挑战性,因为视觉和听觉欺骗线索通常缺乏稳定的跨主体模式。相比之下,皮肤电反应(GSR)提供了更可靠的生理线索,并已广泛应用于接触式欺骗检测。本文利用GSR中稳定的欺骗相关知识,通过跨模态知识蒸馏来指导非接触模态中的表征学习。然而,一个关键障碍是缺乏适用于此设置的合适数据集。为此,我们引入了MuDD,一个大规模多模态欺骗检测数据集,包含来自130名参与者的690分钟的录音。除了视频、音频和GSR之外,MuDD还提供光电容积脉搏波、心率和人格特征,支持更广泛的欺骗科学研究。基于此数据集,我们提出了一种GSR引导的渐进蒸馏(GPD)跨模态蒸馏框架,用于减轻GSR和非接触信号之间巨大模态不匹配引起的负迁移。GPD的核心创新是将渐进式特征级和数字级蒸馏与动态路由相结合,这使得模型能够自适应地确定在训练期间应如何传递教师知识,从而实现更稳定的跨模态知识传递。大量的实验和可视化表明,GPD优于现有方法,并在欺骗检测和隐藏数字识别方面都实现了最先进的性能。
🔬 方法详解
问题定义:非接触式欺骗检测旨在仅使用视频和音频信号来判断个体是否在说谎。现有方法的痛点在于,视觉和听觉欺骗线索在不同个体之间差异很大,难以建立鲁棒的欺骗检测模型。此外,缺乏高质量的多模态数据集也限制了相关研究的进展。
核心思路:论文的核心思路是利用皮肤电反应(GSR)这种更稳定的生理信号作为“教师”,通过知识蒸馏来指导视频和音频模态的“学生”模型学习。GSR信号与欺骗行为之间存在更强的关联性,可以为非接触模态提供更可靠的监督信息,从而提升模型的泛化能力。
技术框架:GPD框架包含以下主要模块:1) 特征提取模块,用于提取视频、音频和GSR信号的特征;2) GSR教师模型,用于学习GSR信号与欺骗行为之间的关系;3) 渐进式蒸馏模块,包含特征级蒸馏和数字级蒸馏,用于将GSR教师模型的知识迁移到视频和音频学生模型;4) 动态路由模块,用于自适应地调整不同模态的知识传递权重。
关键创新:GPD的关键创新在于:1) 提出了GSR引导的跨模态知识蒸馏方法,利用GSR的稳定信息提升非接触模态的性能;2) 引入了渐进式蒸馏策略,逐步将教师知识迁移到学生模型,避免了直接蒸馏可能导致的负迁移;3) 设计了动态路由机制,自适应地调整不同模态的知识传递权重,提升了模型的灵活性和鲁棒性。
关键设计:GPD框架中,特征级蒸馏采用均方误差损失函数,数字级蒸馏采用交叉熵损失函数。动态路由模块使用softmax函数计算不同模态的权重。网络结构方面,视频和音频特征提取器可以使用预训练的ResNet或Transformer模型。GSR教师模型可以使用简单的全连接网络。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GPD框架在MuDD数据集上取得了state-of-the-art的性能。在欺骗检测任务上,GPD相比现有方法提升了约5-10%的准确率。在隐藏数字识别任务上,GPD也取得了显著的性能提升,验证了GSR引导的知识蒸馏的有效性。
🎯 应用场景
该研究成果可应用于安全检查、司法审讯、招聘面试等场景,通过非接触方式自动检测欺骗行为,提高效率和准确性。未来,该技术还可以与心理学研究相结合,深入探索人类欺骗行为的生理和心理机制,为相关领域提供理论支持。
📄 摘要(原文)
Non-contact automatic deception detection remains challenging because visual and auditory deception cues often lack stable cross-subject patterns. In contrast, galvanic skin response (GSR) provides more reliable physiological cues and has been widely used in contact-based deception detection. In this work, we leverage stable deception-related knowledge in GSR to guide representation learning in non-contact modalities through cross-modal knowledge distillation. A key obstacle, however, is the lack of a suitable dataset for this setting. To address this, we introduce MuDD, a large-scale Multimodal Deception Detection dataset containing recordings from 130 participants over 690 minutes. In addition to video, audio, and GSR, MuDD also provides Photoplethysmography, heart rate, and personality traits, supporting broader scientific studies of deception. Based on this dataset, we propose GSR-guided Progressive Distillation (GPD), a cross-modal distillation framework for mitigating the negative transfer caused by the large modality mismatch between GSR and non-contact signals. The core innovation of GPD is the integration of progressive feature-level and digit-level distillation with dynamic routing, which allows the model to adaptively determine how teacher knowledge should be transferred during training, leading to more stable cross-modal knowledge transfer. Extensive experiments and visualizations show that GPD outperforms existing methods and achieves state-of-the-art performance on both deception detection and concealed-digit identification.