Detecting Mental Manipulation in Speech via Synthetic Multi-Speaker Dialogue

📄 arXiv: 2601.08342v1 📥 PDF

作者: Run Chen, Wen Liang, Ziwei Gong, Lin Ai, Julia Hirschberg

分类: cs.CL

发布日期: 2026-01-13

备注: Accepted to IWSDS 2026


💡 一句话要点

提出SPEECHMENTALMANIP基准,用于检测语音对话中的精神操控行为。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 精神操控检测 语音对话 多模态学习 音频-语言模型 少样本学习

📋 核心要点

  1. 现有精神操控检测主要集中于文本,忽略了语音中操控行为的表现,缺乏相关研究。
  2. 构建SPEECHMENTALMANIP基准,通过TTS技术将文本数据集转换为语音,用于训练和评估模型。
  3. 实验表明,模型在语音上的检测性能低于文本,人类评估者也存在不确定性,揭示了语音操控的复杂性。

📝 摘要(中文)

精神操控是一种策略性地使用语言来隐蔽地影响或利用他人的行为,是计算社会推理中一个新兴的任务。先前的工作主要集中在文本对话上,忽略了操控策略在语音中的表现形式。我们首次研究了口语对话中的精神操控检测,引入了一个合成的多说话人基准SPEECHMENTALMANIP,该基准通过高质量、声音一致的文本到语音转换音频来扩充基于文本的数据集。利用少样本大型音频-语言模型和人工标注,我们评估了模态如何影响检测准确性和感知。结果表明,与文本相比,模型在语音上的特异性较高,但召回率明显较低,这表明模型对训练中缺失的声学或韵律线索敏感。人类评估者在音频设置中也表现出类似的不确定性,突显了操控性语音的内在模糊性。总之,这些发现强调了多模态对话系统中模态感知评估和安全对齐的必要性。

🔬 方法详解

问题定义:现有精神操控检测研究主要集中在文本领域,缺乏对语音中操控行为的关注。这忽略了语音中可能存在的声学和韵律线索,以及它们在操控行为识别中的作用。因此,需要研究如何在语音对话中检测精神操控,并构建相应的评估基准。

核心思路:论文的核心思路是构建一个多模态(文本+语音)的基准数据集,并利用现有的音频-语言模型来探索语音模态在精神操控检测中的作用。通过比较模型在文本和语音上的性能差异,以及人类评估者对不同模态的感知,来揭示语音操控的特点和挑战。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 利用文本到语音(TTS)技术,将现有的文本精神操控数据集转换为语音数据,构建SPEECHMENTALMANIP基准;2) 使用少样本学习方法,训练大型音频-语言模型(如Whisper)进行精神操控检测;3) 对比模型在文本和语音上的检测性能,分析模态差异;4) 进行人工标注实验,评估人类评估者对不同模态的感知。

关键创新:该研究的关键创新点在于:1) 首次关注语音对话中的精神操控检测问题;2) 构建了首个多说话人语音精神操控基准SPEECHMENTALMANIP;3) 探索了大型音频-语言模型在语音操控检测中的应用,并分析了模态差异。

关键设计:SPEECHMENTALMANIP基准通过高质量的TTS技术生成语音,保证了声音的一致性。实验中使用了少样本学习方法,以减少对大规模标注数据的依赖。同时,通过对比模型和人类评估者在不同模态上的表现,深入分析了语音操控的特点。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,模型在语音上的特异性较高,但召回率明显低于文本,这表明模型对训练中缺失的声学或韵律线索敏感。人类评估者在音频设置中也表现出类似的不确定性,进一步验证了语音操控的复杂性。这些结果突出了在多模态对话系统中进行模态感知评估的必要性。

🎯 应用场景

该研究成果可应用于多模态对话系统,提高系统对用户意图的理解能力,识别潜在的操控行为,从而增强系统的安全性和可靠性。此外,该研究还可以应用于心理学研究,帮助人们更好地理解和识别语音中的操控信号。

📄 摘要(原文)

Mental manipulation, the strategic use of language to covertly influence or exploit others, is a newly emerging task in computational social reasoning. Prior work has focused exclusively on textual conversations, overlooking how manipulative tactics manifest in speech. We present the first study of mental manipulation detection in spoken dialogues, introducing a synthetic multi-speaker benchmark SPEECHMENTALMANIP that augments a text-based dataset with high-quality, voice-consistent Text-to-Speech rendered audio. Using few-shot large audio-language models and human annotation, we evaluate how modality affects detection accuracy and perception. Our results reveal that models exhibit high specificity but markedly lower recall on speech compared to text, suggesting sensitivity to missing acoustic or prosodic cues in training. Human raters show similar uncertainty in the audio setting, underscoring the inherent ambiguity of manipulative speech. Together, these findings highlight the need for modality-aware evaluation and safety alignment in multimodal dialogue systems.