Multi-View Attention Multiple-Instance Learning Enhanced by LLM Reasoning for Cognitive Distortion Detection

📄 arXiv: 2509.17292v1 📥 PDF

作者: Jun Seo Kim, Hyemi Kim, Woo Joo Oh, Hongjin Cho, Hochul Lee, Hye Hyeon Kim

分类: cs.CL, cs.AI

发布日期: 2025-09-22


💡 一句话要点

提出基于LLM推理增强的多视角注意力多示例学习框架,用于认知扭曲检测。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 认知扭曲检测 多示例学习 大型语言模型 自然语言处理 心理健康 多视角注意力 ELB分解

📋 核心要点

  1. 现有认知扭曲检测方法难以处理上下文模糊、共现和语义重叠等问题。
  2. 利用LLM分解话语为ELB组件,并推理出多个扭曲实例及其显著性分数。
  3. 通过多视角门控注意力机制整合这些实例,提升分类性能,尤其是在模糊性高的扭曲检测中。

📝 摘要(中文)

认知扭曲与精神健康障碍密切相关,但由于上下文模糊性、共现性和语义重叠,其自动检测仍然具有挑战性。本文提出了一种新颖的框架,该框架结合了大型语言模型(LLM)与多示例学习(MIL)架构,以增强可解释性和表达层面的推理能力。每个话语被分解为情感(Emotion)、逻辑(Logic)和行为(Behavior)(ELB)组件,这些组件由LLM处理以推断多个扭曲实例,每个实例都具有预测的类型、表达和模型分配的显著性分数。这些实例通过多视角门控注意力机制进行整合,以进行最终分类。在韩语(KoACD)和英语(Therapist QA)数据集上的实验表明,结合ELB和LLM推断的显著性分数可以提高分类性能,特别是对于具有高度解释模糊性的扭曲。研究结果表明,这是一种心理学基础扎实且可推广的方法,适用于精神健康自然语言处理中的细粒度推理。

🔬 方法详解

问题定义:论文旨在解决认知扭曲自动检测中的挑战,现有方法难以有效处理上下文模糊性、共现性和语义重叠等问题,导致检测精度不高,可解释性较差。这些问题使得模型难以准确识别和理解认知扭曲的细微差别。

核心思路:论文的核心思路是将大型语言模型(LLM)的推理能力与多示例学习(MIL)框架相结合。通过LLM对输入文本进行细粒度的分析,提取情感、逻辑和行为(ELB)等关键信息,并利用这些信息推断出多个可能的认知扭曲实例。然后,利用MIL框架对这些实例进行聚合和分类,从而提高检测的准确性和鲁棒性。

技术框架:该框架主要包含以下几个模块:1) ELB分解模块:将输入话语分解为情感、逻辑和行为三个组件。2) LLM推理模块:利用LLM对每个ELB组件进行推理,生成多个认知扭曲实例,并为每个实例分配一个显著性分数。3) 多视角门控注意力模块:利用多视角注意力机制对不同ELB组件生成的实例进行加权融合。4) 分类模块:利用MIL框架对融合后的实例进行分类,判断是否存在认知扭曲。

关键创新:该论文的关键创新在于:1) 引入了ELB分解的概念,将话语分解为更具语义信息的组件,从而提高了LLM推理的准确性。2) 利用LLM为每个认知扭曲实例分配显著性分数,从而更好地反映了实例的重要性。3) 提出了多视角门控注意力机制,可以有效地融合不同ELB组件的信息。

关键设计:在ELB分解模块中,使用了预训练的语言模型进行情感、逻辑和行为的识别。在LLM推理模块中,使用了Prompt Engineering来引导LLM生成更准确的认知扭曲实例。在多视角门控注意力模块中,使用了Gated Attention机制来动态地调整不同视角的权重。损失函数使用了标准的交叉熵损失函数,并添加了正则化项以防止过拟合。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,该方法在韩语(KoACD)和英语(Therapist QA)数据集上均取得了显著的性能提升。特别是在处理具有高度解释模糊性的认知扭曲时,性能提升更为明显。与基线方法相比,该方法在分类准确率和F1值上均有显著提高,验证了ELB分解和LLM推理的有效性。

🎯 应用场景

该研究成果可应用于心理健康咨询、在线心理治疗、社交媒体内容审核等领域。通过自动检测认知扭曲,可以帮助心理健康专业人员更有效地识别和干预潜在的心理健康问题,也可以用于改善社交媒体环境,减少负面情绪的传播。未来,该技术有望与可穿戴设备结合,实现对个体心理状态的实时监测和干预。

📄 摘要(原文)

Cognitive distortions have been closely linked to mental health disorders, yet their automatic detection remained challenging due to contextual ambiguity, co-occurrence, and semantic overlap. We proposed a novel framework that combines Large Language Models (LLMs) with Multiple-Instance Learning (MIL) architecture to enhance interpretability and expression-level reasoning. Each utterance was decomposed into Emotion, Logic, and Behavior (ELB) components, which were processed by LLMs to infer multiple distortion instances, each with a predicted type, expression, and model-assigned salience score. These instances were integrated via a Multi-View Gated Attention mechanism for final classification. Experiments on Korean (KoACD) and English (Therapist QA) datasets demonstrate that incorporating ELB and LLM-inferred salience scores improves classification performance, especially for distortions with high interpretive ambiguity. Our results suggested a psychologically grounded and generalizable approach for fine-grained reasoning in mental health NLP.