Measuring the Unspoken: A Disentanglement Model and Benchmark for Psychological Analysis in the Wild

作者: Yigui Feng, Qinglin Wang, Haotian Mo, Yang Liu, Ke Liu, Gencheng Liu, Xinhai Chen, Siqi Shen, Songzhu Mei, Jie Liu

分类: cs.CV, cs.AI

发布日期: 2025-12-04

💡 一句话要点

提出MIND模型和ConvoInsight-DB数据集，解决野外对话心理分析中视觉歧义和评估难题。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 心理分析 视觉解耦 微表情检测 视觉-语言模型 深度学习

📋 核心要点

现有视觉-语言模型难以区分语音发音和情感表达，导致心理分析出现偏差，即发音-情感歧义问题。
论文提出MIND模型，通过分层视觉编码器和状态判断模块，抑制歧义唇部特征，实现视觉特征的解耦。
实验结果表明，MIND模型在微表情检测上显著优于现有方法，性能提升高达86.95%，验证了解耦模块的有效性。

📝 摘要（中文）

本文旨在解决野外对话生成心理分析中的两大挑战：一是现有视觉-语言模型(VLMs)无法解决发音-情感歧义，即语音的视觉模式模仿情感表达；二是缺乏可验证的评估指标来评估视觉基础和推理深度，阻碍了研究进展。为此，本文提出了一个完整的生态系统。首先，引入了多层洞察解耦网络(MIND)，这是一种新颖的分层视觉编码器，引入了状态判断模块，通过算法抑制基于时间特征方差的模糊唇部特征，实现显式视觉解耦。其次，构建了ConvoInsight-DB，这是一个新的大规模数据集，包含微表情和深度心理推断的专家注释。第三，设计了心理推理洞察力评级指标(PRISM)，这是一个自动化的维度框架，使用专家指导的LLM来衡量大型心理视觉模型的多维性能。在PRISM基准测试中，MIND显著优于所有基线，在微表情检测方面比之前的SOTA提高了+86.95%。消融研究证实，状态判断解耦模块是性能飞跃的最关键组成部分。代码已开源。

🔬 方法详解

问题定义：现有视觉-语言模型在分析真实场景下的对话时，难以区分说话时的发音动作和真实的情感表达，导致心理分析结果不准确。这种“发音-情感歧义”是现有方法的一个主要痛点。此外，缺乏有效的评估指标来衡量模型在视觉理解和推理方面的能力，也阻碍了相关研究的进展。

核心思路：论文的核心思路是通过解耦视觉特征，将发音相关的特征与情感相关的特征分离开来，从而消除歧义。具体来说，模型通过分析唇部动作的时间变化，判断其是否与说话相关，并抑制这些发音相关的特征，从而保留更纯粹的情感表达。同时，论文还构建了一个新的数据集和评估指标，用于更全面地评估模型在心理分析方面的能力。

技术框架：整体框架包含三个主要部分：1) 多层洞察解耦网络(MIND)：用于提取和解耦视觉特征；2) ConvoInsight-DB数据集：用于训练和评估模型；3) 心理推理洞察力评级指标(PRISM)：用于自动评估模型的心理分析能力。MIND模型是核心，它接收视频作为输入，通过分层视觉编码器提取特征，然后使用状态判断模块抑制发音相关的特征，最后输出解耦后的视觉特征。这些特征可以用于后续的心理分析任务。

关键创新：最重要的技术创新点是状态判断解耦模块。该模块通过分析唇部动作的时间方差，判断其是否与说话相关，并抑制这些特征。这与现有方法不同，现有方法通常直接将所有视觉特征用于心理分析，而忽略了发音动作的干扰。状态判断模块能够有效地消除这种干扰，从而提高心理分析的准确性。

关键设计：状态判断模块的关键在于如何准确地判断唇部动作是否与说话相关。论文使用时间特征方差作为判断依据，即如果唇部动作在时间上变化较大，则认为其与说话相关。具体来说，该模块计算每个特征通道在一段时间内的方差，然后使用一个阈值来判断该通道是否与说话相关。如果方差大于阈值，则认为该通道与说话相关，并将其抑制。阈值的选择是一个关键参数，论文通过实验确定了最佳阈值。

🖼️ 关键图片

📊 实验亮点

MIND模型在ConvoInsight-DB数据集上进行了评估，并在微表情检测任务上取得了显著的性能提升。具体来说，MIND模型比之前的SOTA方法提高了86.95%。消融实验表明，状态判断解耦模块是性能提升的关键因素。这些结果表明，MIND模型能够有效地消除发音-情感歧义，从而提高心理分析的准确性。

🎯 应用场景

该研究成果可应用于心理咨询、人机交互、情感计算等领域。例如，可以开发智能心理咨询系统，通过分析用户的面部表情和语音，自动识别用户的情绪状态，并提供相应的心理支持。此外，还可以应用于机器人领域，使机器人能够更好地理解人类的情感，从而实现更自然的人机交互。该研究还有助于提升视频会议和在线教育的体验，通过分析参与者的情绪状态，优化沟通和教学效果。

📄 摘要（原文）

Generative psychological analysis of in-the-wild conversations faces two fundamental challenges: (1) existing Vision-Language Models (VLMs) fail to resolve Articulatory-Affective Ambiguity, where visual patterns of speech mimic emotional expressions; and (2) progress is stifled by a lack of verifiable evaluation metrics capable of assessing visual grounding and reasoning depth. We propose a complete ecosystem to address these twin challenges. First, we introduce Multilevel Insight Network for Disentanglement(MIND), a novel hierarchical visual encoder that introduces a Status Judgment module to algorithmically suppress ambiguous lip features based on their temporal feature variance, achieving explicit visual disentanglement. Second, we construct ConvoInsight-DB, a new large-scale dataset with expert annotations for micro-expressions and deep psychological inference. Third, Third, we designed the Mental Reasoning Insight Rating Metric (PRISM), an automated dimensional framework that uses expert-guided LLM to measure the multidimensional performance of large mental vision models. On our PRISM benchmark, MIND significantly outperforms all baselines, achieving a +86.95% gain in micro-expression detection over prior SOTA. Ablation studies confirm that our Status Judgment disentanglement module is the most critical component for this performance leap. Our code has been opened.

Measuring the Unspoken: A Disentanglement Model and Benchmark for Psychological Analysis in the Wild

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理