Deception Detection in Dyadic Exchanges Using Multimodal Machine Learning: A Study on a Swedish Cohort
作者: Thomas Jack Samuels, Franco Rugolon, Stephan Hau, Lennart Högman
分类: cs.LG
发布日期: 2025-06-26 (更新: 2025-12-11)
备注: 40 pages, 2 figures, 2 tables. To be submitted in Behavior Research Methods
💡 一句话要点
提出多模态机器学习以提高双人交互中的欺骗检测准确性
🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态机器学习 欺骗检测 双人交互 心理学 数据融合 瑞典人群 情感分析
📋 核心要点
- 现有的欺骗检测方法往往依赖单一模态,导致准确性不足,无法充分利用多种信息源。
- 本研究提出了一种多模态融合的方法,通过结合音频和视频数据,增强欺骗检测的效果。
- 实验结果显示,使用晚期融合策略结合两位参与者的数据,检测准确率达71%,显著优于传统方法。
📝 摘要(中文)
本研究探讨了多模态机器学习技术在双人交互中检测欺骗的有效性,重点在于整合欺骗者与被欺骗者的数据。我们比较了早期和晚期融合方法,利用音频和视频数据,特别是动作单元和注视信息,分析了所有可能的模态和参与者组合。我们的数据集是新收集的,来自瑞典母语者在情感相关主题上的真实与谎言场景。结果表明,结合语音和面部信息的表现优于单模态方法。此外,包含来自两位参与者的数据显著提高了欺骗检测的准确性,最佳表现(71%)是通过对两种模态和参与者应用晚期融合策略获得的。这些发现与心理学理论一致,表明在初始交互中面部和声音表达的控制存在差异。作为首个针对斯堪的纳维亚人群的研究,本研究为未来在心理治疗环境中的双人交互研究奠定了基础。
🔬 方法详解
问题定义:本研究旨在解决在双人交互中欺骗检测的准确性不足问题。现有方法多依赖单一模态,未能充分利用多种信息源,导致检测效果不佳。
核心思路:本研究的核心思路是通过多模态机器学习技术,整合音频和视频数据,特别是面部表情和语音信息,以提高欺骗检测的准确性。这样的设计能够更全面地捕捉参与者的行为特征。
技术框架:整体架构包括数据收集、特征提取、模态融合和分类器训练四个主要模块。数据收集阶段从瑞典母语者中获取真实与谎言场景的数据,特征提取阶段提取音频和视频中的关键特征,模态融合阶段比较早期和晚期融合策略,最后通过分类器进行欺骗检测。
关键创新:本研究的关键创新在于首次在斯堪的纳维亚人群中应用多模态融合技术进行欺骗检测,特别是通过结合两位参与者的数据显著提升了检测准确性。这与现有方法的单一模态依赖形成鲜明对比。
关键设计:在技术细节上,研究中采用了特定的损失函数以优化多模态融合效果,网络结构设计上考虑了音频和视频特征的互补性,确保了信息的有效整合。
📊 实验亮点
实验结果显示,采用晚期融合策略结合两位参与者的数据,欺骗检测的准确率达到了71%。这一结果显著优于传统的单模态方法,表明多模态融合在欺骗检测中的有效性和重要性。
🎯 应用场景
该研究的潜在应用场景包括心理治疗、法律审讯和安全监控等领域。在这些场景中,准确识别欺骗行为对于维护信任和安全至关重要。未来,该研究可能推动更多基于多模态技术的欺骗检测系统的开发与应用。
📄 摘要(原文)
This study investigates the efficacy of using multimodal machine learning techniques to detect deception in dyadic interactions, focusing on the integration of data from both the deceiver and the deceived. We compare early and late fusion approaches, utilizing audio and video data - specifically, Action Units and gaze information - across all possible combinations of modalities and participants. Our dataset, newly collected from Swedish native speakers engaged in truth or lie scenarios on emotionally relevant topics, serves as the basis for our analysis. The results demonstrate that incorporating both speech and facial information yields superior performance compared to single-modality approaches. Moreover, including data from both participants significantly enhances deception detection accuracy, with the best performance (71%) achieved using a late fusion strategy applied to both modalities and participants. These findings align with psychological theories suggesting differential control of facial and vocal expressions during initial interactions. As the first study of its kind on a Scandinavian cohort, this research lays the groundwork for future investigations into dyadic interactions, particularly within psychotherapy settings.