PhonemeFake: Redefining Deepfake Realism with Language-Driven Segmental Manipulation and Adaptive Bilevel Detection

作者: Oguzhan Baser, Ahmet Ege Tanriverdi, Sriram Vishwanath, Sandeep P. Chinchali

分类: cs.CV, cs.AI, cs.CL

发布日期: 2025-06-28

备注: 5 pages, 3 figures, Published at Proceedings of Interspeech 2025, for the dataset see https://huggingface.co/datasets/phonemefake/PhonemeFakeV2, for the code see https://github.com/UTAustin-SwarmLab/ PhonemeFake

期刊: Proceedings of Interspeech 2025

DOI: 10.21437/Interspeech.2025-2583

💡 一句话要点

PhonemeFake：通过语言驱动的音段操纵和自适应双层检测，提升Deepfake的真实感

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: Deepfake检测 语音合成 音素操纵 自适应检测 双层检测 语言驱动 信息安全

📋 核心要点

现有Deepfake数据集在欺骗人类感知方面存在不足，无法有效模拟真实Deepfake攻击的影响。
PhonemeFake通过语言推理操纵关键语音段，生成更逼真、更具欺骗性的Deepfake攻击。
提出的自适应双层检测模型能有效检测PhonemeFake攻击，显著降低错误率并加速检测过程。

📝 摘要（中文）

随着生成模型日益先进，Deepfake（DF）攻击构成了日益增长的威胁。然而，我们的研究表明，现有的DF数据集无法像影响公共舆论的真实DF攻击那样欺骗人类感知。这突显了对更逼真的DF攻击向量的需求。我们引入了PhonemeFake（PF），一种利用语言推理操纵关键语音段的DF攻击，显著降低了高达42%的人类感知误差，并降低了高达94%的基准精度。我们在HuggingFace上发布了一个易于使用的PF数据集，并开源了双层DF段检测模型，该模型自适应地优先处理被操纵区域的计算。我们在三个已知的DF数据集上进行的大量实验表明，我们的检测模型将EER降低了91%，同时实现了高达90%的加速，且计算开销最小，并提供了超越现有模型的精确本地化，成为一种可扩展的解决方案。

🔬 方法详解

问题定义：现有Deepfake检测数据集的真实感不足，难以有效评估和防御真实场景中的Deepfake攻击。现有检测方法在检测精度和计算效率上存在瓶颈，难以满足大规模应用的需求。

核心思路：利用语言学知识，针对语音中的关键音素进行操纵，从而生成更逼真的Deepfake语音。同时，设计一种自适应的双层检测模型，优先处理被操纵的区域，提高检测效率。

技术框架：PhonemeFake攻击生成流程包括：1) 文本分析，识别关键音素；2) 音素替换或修改；3) 语音合成，生成Deepfake语音。自适应双层检测模型包含：1) 第一层快速检测，初步定位可疑区域；2) 第二层精细检测，对可疑区域进行更深入的分析。

关键创新：1) 提出了一种基于语言驱动的音段操纵方法，显著提升了Deepfake的真实感。2) 设计了一种自适应的双层检测模型，在保证检测精度的前提下，显著提高了检测效率。

关键设计：未知，论文未提供足够的技术细节。

🖼️ 关键图片

📊 实验亮点

实验结果表明，PhonemeFake攻击能显著降低人类感知准确率达42%，基准模型准确率达94%。提出的自适应双层检测模型在三个已知Deepfake数据集上将EER降低了91%，同时实现了高达90%的加速，且计算开销最小。

🎯 应用场景

该研究成果可应用于Deepfake检测与防御，保护个人隐私和信息安全，防止虚假信息传播。潜在应用领域包括：社交媒体内容审核、新闻真实性验证、金融欺诈检测、身份认证等。未来可进一步研究更复杂的语音操纵技术和更高效的检测算法。

📄 摘要（原文）

Deepfake (DF) attacks pose a growing threat as generative models become increasingly advanced. However, our study reveals that existing DF datasets fail to deceive human perception, unlike real DF attacks that influence public discourse. It highlights the need for more realistic DF attack vectors. We introduce PhonemeFake (PF), a DF attack that manipulates critical speech segments using language reasoning, significantly reducing human perception by up to 42% and benchmark accuracies by up to 94%. We release an easy-to-use PF dataset on HuggingFace and open-source bilevel DF segment detection model that adaptively prioritizes compute on manipulated regions. Our extensive experiments across three known DF datasets reveal that our detection model reduces EER by 91% while achieving up to 90% speed-up, with minimal compute overhead and precise localization beyond existing models as a scalable solution.

PhonemeFake: Redefining Deepfake Realism with Language-Driven Segmental Manipulation and Adaptive Bilevel Detection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理