Estimating Quality in Therapeutic Conversations: A Multi-Dimensional Natural Language Processing Framework
作者: Alice Rueda, Argyrios Perivolaris, Niloy Roy, Dylan Weston, Sarmed Shaya, Zachary Cote, Martin Ivanov, Bazen G. Teferra, Yuqi Wu, Sirisha Rambhatla, Divya Sharma, Andrew Greenshaw, Rakesh Jetly, Yanbo Zhang, Bo Cao, Reza Samavi, Sridhar Krishnan, Venkat Bhat
分类: cs.CL
发布日期: 2025-05-09
备注: 12 pages, 4 figures, 7 tables
💡 一句话要点
提出一种多维度NLP框架,用于评估心理治疗对话质量,提升治疗效果。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自然语言处理 心理治疗 对话质量评估 多维度特征 机器学习
📋 核心要点
- 现有心理治疗效果评估主观性强,缺乏客观量化方法,难以提供实时反馈。
- 构建多维度NLP框架,从会话动态、语义相似性、情感和问题检测等多角度评估互动质量。
- 实验表明,该框架在增强数据上准确率高达88.9%,AUC达94.6%,显著优于传统方法。
📝 摘要(中文)
本文提出了一种多维自然语言处理(NLP)框架,旨在客观地对咨询会话中的互动质量进行分类。该框架基于文本记录,利用253个动机访谈记录(150个高质量,103个低质量),提取了四个领域的42个特征:会话动态、语义相似性(作为主题对齐)、情感分类和问题检测。使用分层5折交叉验证对随机森林(RF)、CatBoost和支持向量机(SVM)等分类器进行超参数调优和训练,并在保留测试集上进行评估。在平衡(非增强)数据上,RF实现了最高的分类准确率(76.7%),SVM实现了最高的AUC(85.4%)。经过SMOTE-Tomek增强后,性能显著提高:RF达到了高达88.9%的准确率、90.0%的F1分数和94.6%的AUC,而SVM达到了81.1%的准确率、83.1%的F1分数和93.6%的AUC。增强数据的结果反映了该框架在未来更大规模应用中的潜力。特征贡献表明,客户和治疗师之间的会话动态和语义相似性是主要贡献者,其中以客户所说的话(均值和标准差)为主导。该框架在原始数据集和增强数据集上都表现出稳健性,并在F1分数和召回率方面表现出持续的改进。虽然目前是基于文本的,但该框架支持未来的多模态扩展(例如,声音、面部表情),以进行更全面的评估。这项工作引入了一种可扩展的、数据驱动的方法来评估治疗会话的互动质量,为临床医生提供实时反馈,以提高虚拟和面对面治疗互动的质量。
🔬 方法详解
问题定义:论文旨在解决心理治疗中治疗师与患者互动质量评估的问题。现有方法依赖于主观评价,缺乏客观、可量化的评估手段,难以提供实时反馈,阻碍了治疗效果的提升。
核心思路:论文的核心思路是利用自然语言处理技术,从治疗对话的文本记录中提取特征,构建分类模型,从而客观地评估互动质量。通过分析会话动态、语义相似性、情感和问题检测等多个维度,全面捕捉互动过程中的关键信息。
技术框架:该框架包含以下主要模块:1) 数据收集与预处理:收集心理治疗的文本记录,进行清洗和格式化。2) 特征提取:从四个领域提取42个特征,包括会话动态(如话语长度、停顿次数)、语义相似性(衡量主题对齐程度)、情感分类(分析情感倾向)和问题检测(识别问题类型)。3) 模型训练与评估:使用随机森林(RF)、CatBoost和支持向量机(SVM)等分类器,采用分层5折交叉验证进行训练和超参数调优,并在保留测试集上进行评估。4) 数据增强:使用SMOTE-Tomek方法对数据进行增强,以解决数据不平衡问题。
关键创新:该论文的关键创新在于提出了一个多维度的NLP框架,能够综合考虑会话的多个方面来评估互动质量。与以往单一维度的分析方法相比,该框架能够更全面、更准确地捕捉互动过程中的关键信息。此外,该框架具有可扩展性,可以方便地集成其他模态的信息,如语音、面部表情等。
关键设计:在特征提取方面,论文精心设计了42个特征,涵盖了会话动态、语义相似性、情感和问题检测等多个维度。在模型训练方面,论文采用了分层5折交叉验证,以保证模型的泛化能力。此外,论文还使用了SMOTE-Tomek方法对数据进行增强,以解决数据不平衡问题。分类器的超参数通过网格搜索进行优化,以获得最佳性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该框架在平衡数据集上,随机森林分类器取得了76.7%的准确率和85.4%的AUC。经过SMOTE-Tomek数据增强后,随机森林分类器的性能显著提升,准确率达到88.9%,F1分数达到90.0%,AUC达到94.6%。特征贡献分析表明,会话动态和语义相似性是影响互动质量的关键因素。
🎯 应用场景
该研究成果可应用于在线心理咨询平台,为治疗师提供实时反馈,辅助其改进治疗策略。同时,也可用于评估治疗效果,为患者提供个性化的治疗方案。未来,该技术有望推广到其他类型的对话场景,如客户服务、教育辅导等,提升人机交互的质量。
📄 摘要(原文)
Engagement between client and therapist is a critical determinant of therapeutic success. We propose a multi-dimensional natural language processing (NLP) framework that objectively classifies engagement quality in counseling sessions based on textual transcripts. Using 253 motivational interviewing transcripts (150 high-quality, 103 low-quality), we extracted 42 features across four domains: conversational dynamics, semantic similarity as topic alignment, sentiment classification, and question detection. Classifiers, including Random Forest (RF), Cat-Boost, and Support Vector Machines (SVM), were hyperparameter tuned and trained using a stratified 5-fold cross-validation and evaluated on a holdout test set. On balanced (non-augmented) data, RF achieved the highest classification accuracy (76.7%), and SVM achieved the highest AUC (85.4%). After SMOTE-Tomek augmentation, performance improved significantly: RF achieved up to 88.9% accuracy, 90.0% F1-score, and 94.6% AUC, while SVM reached 81.1% accuracy, 83.1% F1-score, and 93.6% AUC. The augmented data results reflect the potential of the framework in future larger-scale applications. Feature contribution revealed conversational dynamics and semantic similarity between clients and therapists were among the top contributors, led by words uttered by the client (mean and standard deviation). The framework was robust across the original and augmented datasets and demonstrated consistent improvements in F1 scores and recall. While currently text-based, the framework supports future multimodal extensions (e.g., vocal tone, facial affect) for more holistic assessments. This work introduces a scalable, data-driven method for evaluating engagement quality of the therapy session, offering clinicians real-time feedback to enhance the quality of both virtual and in-person therapeutic interactions.