An Unsupervised Domain Adaptation Method for Locating Manipulated Region in partially fake Audio
作者: Siding Zeng, Jiangyan Yi, Jianhua Tao, Yujie Chen, Shan Liang, Yong Ren, Xiaohui Zhang
分类: cs.SD, cs.LG, eess.AS
发布日期: 2024-07-11
💡 一句话要点
提出SDE方法,利用专家混合模型解决部分伪造音频跨域篡改定位问题。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 音频篡改检测 域适应 无监督学习 专家混合模型 熵 部分伪造音频 跨域学习
📋 核心要点
- 现有方法在跨域部分伪造音频篡改定位任务中,忽略了目标域特有信息,导致模型性能下降。
- SDE方法利用源域多样化专家集合,通过熵计算选择目标域信息量大的样本,并生成标签。
- 实验结果表明,SDE方法在跨域部分伪造音频检测任务中,F1 score显著提升。
📝 摘要(中文)
本文提出了一种名为SDE(Samples mining with Diversity and Entropy)的无监督域适应方法,用于定位部分伪造音频(PFA)中的篡改区域。针对跨域数据集上深度学习模型性能显著下降的问题,现有方法通常采用数据增强,但忽略了目标域中源域不存在的特征。受专家混合模型的启发,SDE方法首先从源域中表现出色的多样化专家集合中学习,这些专家在目标样本上存在不确定性。通过计算熵来选择信息量最大的样本。此外,还提出了一种针对这些选定样本的标签生成方法,将其整合到源域的训练过程中,从而融入目标域信息。在ADD2023Track2跨域部分伪造音频检测数据集上的实验表明,引入10%的目标域未知样本后,F1 score达到43.84%,相比第二好的方法相对提升了77.2%。
🔬 方法详解
问题定义:论文旨在解决部分伪造音频(Partially Fake Audio, PFA)跨域篡改定位问题。现有方法主要依赖数据增强,但忽略了目标域中独有的、源域中不存在的音频特征,导致模型在目标域的泛化能力不足。
核心思路:论文借鉴专家混合模型(Mixture-of-Experts)的思想,利用多个在源域表现良好的“专家”模型,这些专家对目标域样本具有不同的判断,从而挖掘出目标域中信息量最大的样本。通过分析这些样本,并结合特定的标签生成方法,将目标域的信息融入到模型的训练中,实现无监督的域适应。
技术框架:SDE方法主要包含以下几个阶段:1) 专家模型训练:在源域数据上训练多个具有不同结构或参数的专家模型。2) 样本选择:利用训练好的专家模型对目标域样本进行预测,计算每个样本预测结果的熵值,选择熵值最高的样本作为信息量最大的样本。3) 标签生成:针对选定的目标域样本,设计一种标签生成方法,为这些样本生成伪标签。4) 模型微调:将选定的目标域样本及其伪标签加入到源域数据中,对模型进行微调。
关键创新:SDE方法的核心创新在于:1) 利用专家混合模型的思想,通过多个专家模型对目标域样本进行分析,从而挖掘出信息量最大的样本。2) 提出了一种针对目标域样本的标签生成方法,能够有效地将目标域的信息融入到模型的训练中。与现有方法相比,SDE方法不需要人工标注目标域数据,是一种无监督的域适应方法。
关键设计:论文中,专家模型的选择可以根据具体任务进行调整,例如可以选择不同网络结构的CNN模型或RNN模型。熵值的计算采用标准的熵公式。标签生成方法的设计需要根据具体任务进行调整,例如可以采用聚类算法或基于规则的方法生成伪标签。论文中引入了10%的目标域未知样本。
🖼️ 关键图片
📊 实验亮点
SDE方法在ADD2023Track2跨域部分伪造音频检测数据集上取得了显著的性能提升。在引入10%的目标域未知样本的情况下,SDE方法的F1 score达到了43.84%,相比第二好的方法相对提升了77.2%。实验结果表明,SDE方法能够有效地解决跨域音频篡改定位问题。
🎯 应用场景
该研究成果可应用于音频取证、语音内容安全、虚假信息检测等领域。例如,可以用于检测新闻报道中是否存在音频篡改,或者用于识别社交媒体平台上发布的虚假语音信息。该方法无需标注目标域数据,降低了应用成本,具有重要的实际应用价值和推广前景。
📄 摘要(原文)
When the task of locating manipulation regions in partially-fake audio (PFA) involves cross-domain datasets, the performance of deep learning models drops significantly due to the shift between the source and target domains. To address this issue, existing approaches often employ data augmentation before training. However, they overlook the characteristics in target domain that are absent in source domain. Inspired by the mixture-of-experts model, we propose an unsupervised method named Samples mining with Diversity and Entropy (SDE). Our method first learns from a collection of diverse experts that achieve great performance from different perspectives in the source domain, but with ambiguity on target samples. We leverage these diverse experts to select the most informative samples by calculating their entropy. Furthermore, we introduced a label generation method tailored for these selected samples that are incorporated in the training process in source domain integrating the target domain information. We applied our method to a cross-domain partially fake audio detection dataset, ADD2023Track2. By introducing 10% of unknown samples from the target domain, we achieved an F1 score of 43.84%, which represents a relative increase of 77.2% compared to the second-best method.