Measuring the Unspoken: A Disentanglement Model and Benchmark for Psychological Analysis in the Wild
作者: Yigui Feng, Qinglin Wang, Haotian Mo, Yang Liu, Ke Liu, Gencheng Liu, Xinhai Chen, Siqi Shen, Songzhu Mei, Jie Liu
分类: cs.CV, cs.AI
发布日期: 2025-12-04
💡 一句话要点
提出MIND模型和ConvoInsight-DB数据集,解决野外对话心理分析中视觉歧义和评估难题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 心理分析 视觉解耦 微表情检测 视觉-语言模型 深度学习
📋 核心要点
- 现有视觉-语言模型难以区分语音发音和情感表达,导致心理分析出现偏差,即发音-情感歧义问题。
- 论文提出MIND模型,通过分层视觉编码器和状态判断模块,抑制歧义唇部特征,实现视觉特征的解耦。
- 实验结果表明,MIND模型在微表情检测上显著优于现有方法,性能提升高达86.95%,验证了解耦模块的有效性。
📝 摘要(中文)
本文旨在解决野外对话生成心理分析中的两大挑战:一是现有视觉-语言模型(VLMs)无法解决发音-情感歧义,即语音的视觉模式模仿情感表达;二是缺乏可验证的评估指标来评估视觉基础和推理深度,阻碍了研究进展。为此,本文提出了一个完整的生态系统。首先,引入了多层洞察解耦网络(MIND),这是一种新颖的分层视觉编码器,引入了状态判断模块,通过算法抑制基于时间特征方差的模糊唇部特征,实现显式视觉解耦。其次,构建了ConvoInsight-DB,这是一个新的大规模数据集,包含微表情和深度心理推断的专家注释。第三,设计了心理推理洞察力评级指标(PRISM),这是一个自动化的维度框架,使用专家指导的LLM来衡量大型心理视觉模型的多维性能。在PRISM基准测试中,MIND显著优于所有基线,在微表情检测方面比之前的SOTA提高了+86.95%。消融研究证实,状态判断解耦模块是性能飞跃的最关键组成部分。代码已开源。
🔬 方法详解
问题定义:现有视觉-语言模型在分析真实场景下的对话时,难以区分说话时的发音动作和真实的情感表达,导致心理分析结果不准确。这种“发音-情感歧义”是现有方法的一个主要痛点。此外,缺乏有效的评估指标来衡量模型在视觉理解和推理方面的能力,也阻碍了相关研究的进展。
核心思路:论文的核心思路是通过解耦视觉特征,将发音相关的特征与情感相关的特征分离开来,从而消除歧义。具体来说,模型通过分析唇部动作的时间变化,判断其是否与说话相关,并抑制这些发音相关的特征,从而保留更纯粹的情感表达。同时,论文还构建了一个新的数据集和评估指标,用于更全面地评估模型在心理分析方面的能力。
技术框架:整体框架包含三个主要部分:1) 多层洞察解耦网络(MIND):用于提取和解耦视觉特征;2) ConvoInsight-DB数据集:用于训练和评估模型;3) 心理推理洞察力评级指标(PRISM):用于自动评估模型的心理分析能力。MIND模型是核心,它接收视频作为输入,通过分层视觉编码器提取特征,然后使用状态判断模块抑制发音相关的特征,最后输出解耦后的视觉特征。这些特征可以用于后续的心理分析任务。
关键创新:最重要的技术创新点是状态判断解耦模块。该模块通过分析唇部动作的时间方差,判断其是否与说话相关,并抑制这些特征。这与现有方法不同,现有方法通常直接将所有视觉特征用于心理分析,而忽略了发音动作的干扰。状态判断模块能够有效地消除这种干扰,从而提高心理分析的准确性。
关键设计:状态判断模块的关键在于如何准确地判断唇部动作是否与说话相关。论文使用时间特征方差作为判断依据,即如果唇部动作在时间上变化较大,则认为其与说话相关。具体来说,该模块计算每个特征通道在一段时间内的方差,然后使用一个阈值来判断该通道是否与说话相关。如果方差大于阈值,则认为该通道与说话相关,并将其抑制。阈值的选择是一个关键参数,论文通过实验确定了最佳阈值。
🖼️ 关键图片
📊 实验亮点
MIND模型在ConvoInsight-DB数据集上进行了评估,并在微表情检测任务上取得了显著的性能提升。具体来说,MIND模型比之前的SOTA方法提高了86.95%。消融实验表明,状态判断解耦模块是性能提升的关键因素。这些结果表明,MIND模型能够有效地消除发音-情感歧义,从而提高心理分析的准确性。
🎯 应用场景
该研究成果可应用于心理咨询、人机交互、情感计算等领域。例如,可以开发智能心理咨询系统,通过分析用户的面部表情和语音,自动识别用户的情绪状态,并提供相应的心理支持。此外,还可以应用于机器人领域,使机器人能够更好地理解人类的情感,从而实现更自然的人机交互。该研究还有助于提升视频会议和在线教育的体验,通过分析参与者的情绪状态,优化沟通和教学效果。
📄 摘要(原文)
Generative psychological analysis of in-the-wild conversations faces two fundamental challenges: (1) existing Vision-Language Models (VLMs) fail to resolve Articulatory-Affective Ambiguity, where visual patterns of speech mimic emotional expressions; and (2) progress is stifled by a lack of verifiable evaluation metrics capable of assessing visual grounding and reasoning depth. We propose a complete ecosystem to address these twin challenges. First, we introduce Multilevel Insight Network for Disentanglement(MIND), a novel hierarchical visual encoder that introduces a Status Judgment module to algorithmically suppress ambiguous lip features based on their temporal feature variance, achieving explicit visual disentanglement. Second, we construct ConvoInsight-DB, a new large-scale dataset with expert annotations for micro-expressions and deep psychological inference. Third, Third, we designed the Mental Reasoning Insight Rating Metric (PRISM), an automated dimensional framework that uses expert-guided LLM to measure the multidimensional performance of large mental vision models. On our PRISM benchmark, MIND significantly outperforms all baselines, achieving a +86.95% gain in micro-expression detection over prior SOTA. Ablation studies confirm that our Status Judgment disentanglement module is the most critical component for this performance leap. Our code has been opened.