Interpretable All-Type Audio Deepfake Detection with Audio LLMs via Frequency-Time Reinforcement Learning

📄 arXiv: 2601.02983v1 📥 PDF

作者: Yuankun Xie, Xiaoxuan Guo, Jiayi Zhou, Tao Wang, Jian Liu, Ruibo Fu, Xiaopeng Wang, Haonan Cheng, Long Ye

分类: cs.SD, cs.AI

发布日期: 2026-01-06


💡 一句话要点

提出基于频率-时间强化学习的音频大语言模型,用于可解释的全类型音频深度伪造检测

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 音频深度伪造检测 音频大语言模型 强化学习 频率-时间分析 可解释性 思维链 策略优化

📋 核心要点

  1. 现有音频深度伪造检测器缺乏对多种音频类型(语音、环境声等)的泛化能力,且决策过程缺乏可解释性。
  2. 提出一种基于频率-时间结构化思维链的强化学习方法,利用音频大语言模型进行全类型音频深度伪造检测,提升模型的可解释性。
  3. 实验结果表明,该方法在全类型音频深度伪造检测任务上取得了state-of-the-art的性能,并能生成可解释的频率-时间理由。

📝 摘要(中文)

近年来,音频大语言模型(ALLMs)的快速发展使得高质量合成音频唾手可得,但也增加了语音、环境声音、歌声和音乐等恶意音频深度伪造的风险。因此,现实世界的音频深度伪造检测(ADD)需要能够泛化到各种异构音频并提供可解释决策的全类型检测器。鉴于ALLMs强大的多任务泛化能力,我们首先研究了它们在监督微调(SFT)和强化微调(RFT)下在全类型ADD上的性能。然而,仅使用二元真/假标签的SFT往往会将模型简化为黑盒分类器,牺牲了可解释性。同时,稀疏监督下的原始RFT容易产生奖励黑客行为,并可能产生幻觉式的、无根据的理由。为了解决这个问题,我们提出了一个自动注释和润色流程,构建了频率-时间结构化的思维链(CoT)理由,生成约34万个冷启动演示。在此基础上,我们提出了一种频率时间-组相对策略优化(FT-GRPO),这是一种两阶段训练范式,首先使用SFT冷启动ALLMs,然后在基于规则的频率-时间约束下应用GRPO。实验表明,FT-GRPO在全类型ADD上实现了最先进的性能,同时产生了可解释的、基于FT的理由。数据和代码已在线提供。

🔬 方法详解

问题定义:论文旨在解决现有音频深度伪造检测器在面对多种音频类型时泛化能力不足,且决策过程缺乏可解释性的问题。现有方法通常针对特定类型的音频进行训练,难以适应真实世界中复杂的音频环境。此外,现有方法通常是黑盒模型,无法提供决策依据,难以信任。

核心思路:论文的核心思路是利用音频大语言模型(ALLMs)强大的多任务泛化能力,并结合频率-时间结构化的思维链(CoT)和强化学习,训练一个能够泛化到各种音频类型并提供可解释决策的音频深度伪造检测器。通过频率-时间结构化的CoT,模型能够学习到音频中与真伪相关的频率和时间特征,从而提高检测的准确性和可解释性。

技术框架:整体框架包含以下几个主要阶段: 1. 自动注释和润色流程:构建频率-时间结构化的CoT理由,生成大量冷启动演示数据。 2. 监督微调(SFT):使用CoT数据对ALLM进行冷启动,使其初步具备音频深度伪造检测能力。 3. 频率时间-组相对策略优化(FT-GRPO):在基于规则的频率-时间约束下,使用GRPO对模型进行强化学习,进一步提高检测性能和可解释性。

关键创新:论文最重要的技术创新点在于提出了频率时间-组相对策略优化(FT-GRPO)方法,该方法结合了频率-时间结构化的CoT和强化学习,使得模型能够学习到音频中与真伪相关的频率和时间特征,并生成可解释的决策依据。与传统的监督学习方法相比,FT-GRPO能够更好地利用音频的频率-时间信息,提高检测的准确性和可解释性。

关键设计: 1. 频率-时间结构化CoT:设计了一种自动注释和润色流程,用于生成频率-时间结构化的CoT理由,为模型的训练提供高质量的监督信号。 2. 频率时间-组相对策略优化(FT-GRPO):设计了一种两阶段训练范式,首先使用SFT冷启动ALLM,然后在基于规则的频率-时间约束下应用GRPO。GRPO的目标是最大化奖励函数,同时满足频率-时间约束,从而保证模型生成可解释的决策依据。 3. 频率-时间约束:设计了一系列基于规则的频率-时间约束,用于指导模型的学习过程,使其能够关注音频中与真伪相关的频率和时间特征。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FT-GRPO在全类型音频深度伪造检测任务上取得了state-of-the-art的性能,显著优于现有的监督学习方法。此外,该方法能够生成可解释的频率-时间理由,为决策过程提供了依据。具体性能数据在论文中给出,与多个基线模型进行了对比,展示了FT-GRPO的优越性。

🎯 应用场景

该研究成果可应用于各种需要音频真实性验证的场景,例如:新闻媒体、司法鉴定、金融安全等。通过检测音频深度伪造,可以有效防止虚假信息的传播,维护社会稳定和公共安全。未来,该技术还可以扩展到其他类型的多媒体内容,例如视频和图像,以实现更全面的深度伪造检测。

📄 摘要(原文)

Recent advances in audio large language models (ALLMs) have made high-quality synthetic audio widely accessible, increasing the risk of malicious audio deepfakes across speech, environmental sounds, singing voice, and music. Real-world audio deepfake detection (ADD) therefore requires all-type detectors that generalize across heterogeneous audio and provide interpretable decisions. Given the strong multi-task generalization ability of ALLMs, we first investigate their performance on all-type ADD under both supervised fine-tuning (SFT) and reinforcement fine-tuning (RFT). However, SFT using only binary real/fake labels tends to reduce the model to a black-box classifier, sacrificing interpretability. Meanwhile, vanilla RFT under sparse supervision is prone to reward hacking and can produce hallucinated, ungrounded rationales. To address this, we propose an automatic annotation and polishing pipeline that constructs Frequency-Time structured chain-of-thought (CoT) rationales, producing ~340K cold-start demonstrations. Building on CoT data, we propose Frequency Time-Group Relative Policy Optimization (FT-GRPO), a two-stage training paradigm that cold-starts ALLMs with SFT and then applies GRPO under rule-based frequency-time constraints. Experiments demonstrate that FT-GRPO achieves state-of-the-art performance on all-type ADD while producing interpretable, FT-grounded rationales. The data and code are available online.