TeleAntiFraud-28k: An Audio-Text Slow-Thinking Dataset for Telecom Fraud Detection

作者: Zhiming Ma, Peidong Wang, Minhua Huang, Jingpeng Wang, Kai Wu, Xiangzhao Lv, Yachun Pang, Yin Yang, Wenjie Tang, Yuchen Kang

分类: cs.CL, cs.MM

发布日期: 2025-03-31 (更新: 2025-08-18)

🔗 代码/项目: GITHUB

💡 一句话要点

提出TeleAntiFraud-28k：一个用于电信诈骗检测的音频-文本慢思考数据集。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 电信诈骗检测 多模态数据 音频文本 数据合成 大型语言模型

📋 核心要点

电信诈骗检测面临缺乏高质量多模态训练数据的挑战，现有方法难以有效整合音频信号和推理文本分析。
TeleAntiFraud-28k数据集通过隐私保护的样本生成、语义增强和多智能体对抗合成，构建了包含丰富诈骗场景和推理标注的音频-文本数据集。
该数据集包含28k+样本，并构建了评估基准TeleAntiFraud-Bench，同时提供了一个SFT模型和数据处理框架，促进社区研究。

📝 摘要（中文）

本文提出TeleAntiFraud-28k，首个开源的音频-文本慢思考数据集，专为自动电信诈骗分析设计，旨在解决高质量多模态训练数据匮乏的问题。该数据集通过三种策略构建：(1) 使用自动语音识别(ASR)转录的通话录音生成保护隐私的文本真值样本，并通过文本到语音(TTS)模型再生确保真实世界一致性（原始音频已匿名化）；(2) 通过基于大型语言模型(LLM)的自指令采样增强语义，扩展场景覆盖；(3) 通过预定义的通信场景和诈骗类型，进行多智能体对抗合成，模拟新兴诈骗策略。生成的数据集包含28511个经过严格处理的语音-文本对，并带有详细的诈骗推理注释。数据集分为三个任务：场景分类、诈骗检测、诈骗类型分类。此外，构建了TeleAntiFraud-Bench，一个包含按比例采样的实例的标准评估基准，以促进模型在电信诈骗检测任务上的系统测试。同时贡献了一个在混合真实/合成数据上训练的生产优化监督微调(SFT)模型，并开源了数据处理框架，以支持社区驱动的数据集扩展。这项工作为多模态反诈骗研究建立了一个基础框架，同时解决了数据隐私和场景多样性方面的关键挑战。

🔬 方法详解

问题定义：论文旨在解决电信诈骗检测领域缺乏高质量、多样化的多模态（音频-文本）训练数据的问题。现有方法要么依赖于真实数据，存在隐私泄露风险，要么数据量不足，难以覆盖各种诈骗场景，导致模型泛化能力差。此外，现有数据集通常缺乏对诈骗推理过程的详细标注，不利于模型学习深层次的诈骗模式。

核心思路：论文的核心思路是通过结合自动语音识别（ASR）、文本到语音（TTS）、大型语言模型（LLM）和多智能体对抗合成等技术，生成高质量的合成数据，并与少量真实数据混合，从而构建一个既保护隐私、又具有丰富场景和详细标注的电信诈骗检测数据集。这种方法旨在解决数据稀缺和隐私敏感问题，同时提升模型的泛化能力和推理能力。

技术框架：TeleAntiFraud-28k数据集的构建流程主要包含以下三个阶段： 1. 隐私保护的文本真值样本生成：利用ASR将真实的通话录音转录为文本，并进行匿名化处理。然后，使用TTS模型将文本重新生成语音，确保数据的一致性。 2. 基于LLM的语义增强：利用LLM对ASR输出的文本进行自指令采样，生成更多样化的诈骗场景，从而扩展数据集的覆盖范围。 3. 多智能体对抗合成：通过预定义的通信场景和诈骗类型，模拟新兴的诈骗策略，生成更具挑战性的样本。多个智能体扮演不同的角色，进行对话，模拟诈骗过程。最终，数据集包含28511个语音-文本对，并带有详细的诈骗推理注释。

关键创新：该论文的关键创新在于： 1. 多模态数据生成方法：结合ASR、TTS、LLM和多智能体对抗合成，生成高质量、多样化的合成数据，有效解决了数据稀缺和隐私敏感问题。 2. 慢思考数据集：数据集包含详细的诈骗推理注释，有助于模型学习深层次的诈骗模式，提升模型的推理能力。 3. 开源数据集和基准：开源数据集TeleAntiFraud-28k和评估基准TeleAntiFraud-Bench，促进了社区对电信诈骗检测问题的研究。

关键设计： 1. 隐私保护：使用ASR转录和TTS合成，避免直接使用原始语音数据，保护用户隐私。 2. 场景多样性：通过LLM自指令采样和多智能体对抗合成，覆盖各种诈骗场景，提升模型的泛化能力。 3. 详细标注：对每个样本进行详细的诈骗推理标注，包括诈骗类型、诈骗目标、诈骗手段等，有助于模型学习深层次的诈骗模式。 4. 数据混合：将合成数据与少量真实数据混合，提升模型的鲁棒性。

🖼️ 关键图片

📊 实验亮点

论文构建了包含28511个样本的TeleAntiFraud-28k数据集，并进行了详细的诈骗推理标注。同时，论文提供了一个在混合真实/合成数据上训练的SFT模型，并在TeleAntiFraud-Bench上进行了评估。具体性能数据未知，但论文强调该模型是生产优化的，表明其具有一定的实用价值。

🎯 应用场景

该研究成果可应用于智能反诈骗系统，自动识别和预警电信诈骗行为。通过分析通话录音和文本内容，系统能够检测潜在的诈骗风险，并及时提醒用户，从而减少诈骗案件的发生。此外，该数据集和基准可以促进反诈骗技术的研究和发展，为构建更有效的反诈骗模型提供支持。

📄 摘要（原文）

The detection of telecom fraud faces significant challenges due to the lack of high-quality multimodal training data that integrates audio signals with reasoning-oriented textual analysis. To address this gap, we present TeleAntiFraud-28k, the first open-source audio-text slow-thinking dataset specifically designed for automated telecom fraud analysis. Our dataset is constructed through three strategies: (1) Privacy-preserved text-truth sample generation using automatically speech recognition (ASR)-transcribed call recordings (with anonymized original audio), ensuring real-world consistency through text-to-speech (TTS) model regeneration; (2) Semantic enhancement via large language model (LLM)-based self-instruction sampling on authentic ASR outputs to expand scenario coverage; (3) Multi-agent adversarial synthesis that simulates emerging fraud tactics through predefined communication scenarios and fraud typologies. The generated dataset contains 28,511 rigorously processed speech-text pairs, complete with detailed annotations for fraud reasoning. The dataset is divided into three tasks: scenario classification, fraud detection, fraud type classification. Furthermore, we construct TeleAntiFraud-Bench, a standardized evaluation benchmark comprising proportionally sampled instances from the dataset, to facilitate systematic testing of model performance on telecom fraud detection tasks. We also contribute a production-optimized supervised fine-tuning (SFT) model trained on hybrid real/synthetic data, while open-sourcing the data processing framework to enable community-driven dataset expansion. This work establishes a foundational framework for multimodal anti-fraud research while addressing critical challenges in data privacy and scenario diversity. The project will be released at https://github.com/JimmyMa99/TeleAntiFraud.

TeleAntiFraud-28k: An Audio-Text Slow-Thinking Dataset for Telecom Fraud Detection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理