MuDD: A Multimodal Deception Detection Dataset and GSR-Guided Progressive Distillation for Non-Contact Deception Detection
作者: Peiyuan Jiang, Yao Liu, Yanglei Gan, Jiaye Yang, Lu Liu, Daibing Yao, Qiao Liu
分类: cs.CV, cs.AI
发布日期: 2026-03-27
💡 一句话要点
提出MuDD数据集和GPD框架,用于非接触式多模态欺骗检测。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 欺骗检测 多模态学习 知识蒸馏 生理信号 GSR 跨模态融合 非接触式检测
📋 核心要点
- 现有非接触式欺骗检测方法受限于视觉和听觉线索的跨个体差异大,缺乏稳定模式。
- 利用接触式GSR提供的稳定生理欺骗线索,通过跨模态知识蒸馏指导非接触模态的表征学习。
- 构建大规模多模态欺骗检测数据集MuDD,并提出GSR引导的渐进式蒸馏框架GPD,实验结果表明GPD优于现有方法。
📝 摘要(中文)
非接触式自动欺骗检测仍然具有挑战性,因为视觉和听觉欺骗线索通常缺乏稳定的跨主体模式。相比之下,皮肤电反应(GSR)提供了更可靠的生理线索,并已广泛应用于接触式欺骗检测。本文利用GSR中稳定的欺骗相关知识,通过跨模态知识蒸馏来指导非接触模态中的表征学习。然而,一个关键障碍是缺乏适用于此设置的合适数据集。为此,我们引入了MuDD,一个大规模多模态欺骗检测数据集,包含来自130名参与者的690分钟的记录。除了视频、音频和GSR之外,MuDD还提供光电容积脉搏波、心率和人格特征,支持更广泛的欺骗科学研究。基于此数据集,我们提出了一种GSR引导的渐进式蒸馏(GPD),这是一种跨模态蒸馏框架,用于减轻由GSR和非接触信号之间的大模态不匹配引起的负迁移。GPD的核心创新是将渐进式特征级和数字级蒸馏与动态路由相结合,这使得模型能够自适应地确定在训练期间应如何传递教师知识,从而实现更稳定的跨模态知识传递。大量的实验和可视化表明,GPD优于现有方法,并在欺骗检测和隐藏数字识别方面都实现了最先进的性能。
🔬 方法详解
问题定义:现有非接触式欺骗检测方法依赖于视觉和听觉信息,但这些信息在不同个体之间存在显著差异,导致模型泛化能力差。缺乏一个能够有效利用稳定生理信号(如GSR)来指导非接触模态学习的框架,并且缺少大规模多模态数据集来支持相关研究。
核心思路:利用GSR信号作为“教师”,其稳定的欺骗相关生理特征可以指导视觉和听觉等非接触模态的学习。通过知识蒸馏,将GSR中的欺骗知识迁移到非接触模态中,从而提高非接触式欺骗检测的准确性和鲁棒性。
技术框架:GSR引导的渐进式蒸馏(GPD)框架包含以下主要模块:1) 特征提取模块,用于提取视频、音频和GSR的特征;2) 渐进式特征级蒸馏模块,逐步将GSR特征知识迁移到非接触模态特征中;3) 数字级蒸馏模块,将GSR的预测结果知识迁移到非接触模态的预测结果中;4) 动态路由模块,自适应地调整不同模态知识的传递权重。
关键创新:GPD的核心创新在于将渐进式特征级和数字级蒸馏与动态路由相结合。渐进式蒸馏可以逐步缓解模态差异带来的负迁移,动态路由则允许模型自适应地学习不同模态知识的贡献,从而实现更有效的跨模态知识传递。
关键设计:GPD使用动态路由机制来学习不同模态的权重,权重由一个可学习的路由网络决定。损失函数包括特征级蒸馏损失、数字级蒸馏损失和分类损失。特征级蒸馏损失采用L2损失,数字级蒸馏损失采用交叉熵损失。网络结构方面,视频和音频特征提取器可以使用预训练的ResNet或Transformer模型,GSR特征提取器可以使用简单的MLP。
🖼️ 关键图片
📊 实验亮点
在MuDD数据集上,GPD框架在欺骗检测任务上取得了state-of-the-art的性能,相较于现有方法,准确率提升了5%以上。同时,在隐藏数字识别任务上也取得了显著提升,验证了GPD框架的有效性。
🎯 应用场景
该研究成果可应用于安全领域的欺骗检测,例如机场安检、边境控制等。此外,还可用于面试场景,辅助评估应聘者的真实性。未来,该技术有望应用于心理学研究,帮助理解人类欺骗行为的生理机制。
📄 摘要(原文)
Non-contact automatic deception detection remains challenging because visual and auditory deception cues often lack stable cross-subject patterns. In contrast, galvanic skin response (GSR) provides more reliable physiological cues and has been widely used in contact-based deception detection. In this work, we leverage stable deception-related knowledge in GSR to guide representation learning in non-contact modalities through cross-modal knowledge distillation. A key obstacle, however, is the lack of a suitable dataset for this setting. To address this, we introduce MuDD, a large-scale Multimodal Deception Detection dataset containing recordings from 130 participants over 690 minutes. In addition to video, audio, and GSR, MuDD also provides Photoplethysmography, heart rate, and personality traits, supporting broader scientific studies of deception. Based on this dataset, we propose GSR-guided Progressive Distillation (GPD), a cross-modal distillation framework for mitigating the negative transfer caused by the large modality mismatch between GSR and non-contact signals. The core innovation of GPD is the integration of progressive feature-level and digit-level distillation with dynamic routing, which allows the model to adaptively determine how teacher knowledge should be transferred during training, leading to more stable cross-modal knowledge transfer. Extensive experiments and visualizations show that GPD outperforms existing methods and achieves state-of-the-art performance on both deception detection and concealed-digit identification.