Combating Falsification of Speech Videos with Live Optical Signatures (Extended Version)

📄 arXiv: 2504.21846v2 📥 PDF

作者: Hadleigh Schwartz, Xiaofeng Yan, Charles J. Carver, Xia Zhou

分类: cs.CV, cs.AI, cs.CR

发布日期: 2025-04-30 (更新: 2025-09-11)

备注: In Proceedings of the 2025 ACM SIGSAC Conference on Computer and Communications Security (CCS '25). October 13 - 17, 2025, Taipei, Taiwan. ACM, New York, NY, USA. 19 pages

DOI: 10.1145/3719027.3765112


💡 一句话要点

提出VeriLight以解决演讲视频伪造问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 视频伪造检测 物理签名 光学调制 鲁棒性 局部敏感哈希 信息安全 演讲视频

📋 核心要点

  1. 现有的数字伪造检测方法在面对复杂的视觉篡改时效果有限,难以保证视频内容的完整性。
  2. VeriLight通过在现场生成动态物理签名并将其嵌入视频,提供了一种新颖的保护机制,能够有效检测伪造。
  3. 实验结果显示,VeriLight在多种录制条件下表现出色,AUC值达到0.99,真阳性率为100%,显示出其高鲁棒性。

📝 摘要(中文)

高影响力的演讲视频因其易获取性和影响力而成为伪造的主要目标。本文提出了VeriLight,一个低开销且不显眼的系统,用于保护演讲视频免受讲者身份及唇部和面部动作的视觉篡改。与现有的纯数字伪造检测方法不同,VeriLight在事件现场创建动态物理签名,并通过不可察觉的调制光将其嵌入所有视频录制中。这些物理签名编码了与演讲事件独特相关的语义特征,包括讲者身份和面部动作,并通过加密技术防止伪造。实验结果表明,VeriLight在检测伪造视频时的AUC值达到0.99及以上,且真阳性率为100%。

🔬 方法详解

问题定义:本文旨在解决演讲视频伪造问题,现有方法主要依赖数字手段,难以有效检测复杂的视觉篡改,导致视频内容的可信度降低。

核心思路:VeriLight的核心思路是通过在现场生成动态物理签名并将其嵌入视频中,提供一种低开销且不显眼的保护机制,确保视频内容的完整性和真实性。

技术框架:VeriLight的整体架构包括两个主要模块:一是基于局部敏感哈希生成150位的紧凑、姿态不变的演讲视频特征;二是通过光学调制方案将超过200 bps的信息嵌入视频中,确保其在视频和实时场景中不可察觉。

关键创新:VeriLight的最大创新在于其动态物理签名的生成与嵌入方式,与传统的数字伪造检测方法相比,提供了更高的安全性和鲁棒性,能够有效抵御伪造攻击。

关键设计:在设计中,VeriLight采用了局部敏感哈希算法来生成特征,并通过加密技术确保签名的安全性,此外,调制方案的设计确保了信息的隐蔽性与有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,VeriLight在检测伪造视频时的AUC值达到0.99及以上,真阳性率为100%。此外,VeriLight在不同录制条件、视频后处理技术及白盒对抗攻击下表现出高度鲁棒性,显示出其优越的性能。

🎯 应用场景

VeriLight的潜在应用领域包括新闻媒体、社交媒体平台及任何需要保护视频内容真实性的场景。其实际价值在于提升视频内容的可信度,防止信息篡改带来的负面影响,未来可能在法律证据、在线教育等领域发挥重要作用。

📄 摘要(原文)

High-profile speech videos are prime targets for falsification, owing to their accessibility and influence. This work proposes VeriLight, a low-overhead and unobtrusive system for protecting speech videos from visual manipulations of speaker identity and lip and facial motion. Unlike the predominant purely digital falsification detection methods, VeriLight creates dynamic physical signatures at the event site and embeds them into all video recordings via imperceptible modulated light. These physical signatures encode semantically-meaningful features unique to the speech event, including the speaker's identity and facial motion, and are cryptographically-secured to prevent spoofing. The signatures can be extracted from any video downstream and validated against the portrayed speech content to check its integrity. Key elements of VeriLight include (1) a framework for generating extremely compact (i.e., 150-bit), pose-invariant speech video features, based on locality-sensitive hashing; and (2) an optical modulation scheme that embeds $>$200 bps into video while remaining imperceptible both in video and live. Experiments on extensive video datasets show VeriLight achieves AUCs $\geq$ 0.99 and a true positive rate of 100% in detecting falsified videos. Further, VeriLight is highly robust across recording conditions, video post-processing techniques, and white-box adversarial attacks on its feature extraction methods. A demonstration of VeriLight is available at https://mobilex.cs.columbia.edu/verilight.