Exploring Human-AI Complementarity in CPS Diagnosis Using Unimodal and Multimodal BERT Models

作者: Kester Wong, Sahan Bulathwela, Mutlu Cukurova

分类: cs.CL, cs.AI

发布日期: 2025-07-19

备注: Accepted to appear in the workshop proceedings for the HEXED'25 workshop in the 26th International Conference on Artificial Intelligence in Education 2025 (AIED 2025), 22 July 2025, Palermo, Italy. 5 pages

💡 一句话要点

利用Unimodal和Multimodal BERT模型探索人机协同在CPS诊断中的应用

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 协同问题解决 多模态学习 BERT模型 语音特征 人机协同 教育人工智能 CPS诊断

📋 核心要点

现有方法难以充分利用语音信息提升协同问题解决（CPS）诊断的准确性，尤其是在数据稀疏类别上。
本研究探索了多模态BERT模型AudiBERT，通过融合语音和声学特征，提升CPS指标的检测能力。
实验表明，AudiBERT在社会认知维度上优于BERT，尤其是在稀疏类别上，但情感维度提升不明显。

📝 摘要（中文）

本研究探讨了使用机器学习技术从对话中检测协同问题解决(CPS)指标这一教育人工智能领域的重要挑战。以往研究已探索使用基于转录数据的BERT模型来可靠地检测有意义的CPS指标。一个显著的进步是多模态BERT变体AudiBERT，它集成了语音和声学-韵律音频特征，以增强CPS诊断。尽管初步结果表明多模态有所改进，但这些改进的统计显著性仍不清楚，并且缺乏关于利用人机互补进行CPS诊断任务的指导。本文扩展了之前的研究，强调AudiBERT模型不仅改进了数据集中稀疏类别的分类，而且在社会认知维度分类方面，相对于BERT模型，它在类别层面具有统计学意义上的显著改进。然而，在情感维度分类方面，未观察到相对于BERT模型的类似显著类别层面改进。相关性分析表明，更大的训练数据量与AudiBERT和BERT模型更高的召回率显著相关。此外，BERT模型的精确度与人类编码员之间的高度评分者间一致性显著相关。当使用BERT模型诊断AudiBERT模型能够很好地检测到的子技能中的指标时，所有指标的性能不一致。最后，本文概述了一种实现人机互补进行CPS诊断的结构化方法，强调了模型可解释性的重要性，以支持人类在反思性编码过程中的能动性和参与度。

🔬 方法详解

问题定义：论文旨在解决协同问题解决（CPS）诊断中，仅依赖文本信息进行判断的局限性。现有方法，如仅使用文本转录的BERT模型，无法充分利用语音中的情感和语调信息，导致在某些类别（特别是数据稀疏的类别）的诊断准确率较低。此外，如何有效结合人类专家知识和AI模型的能力，实现人机协同，也是一个待解决的问题。

核心思路：论文的核心思路是利用多模态学习，将语音和声学特征融入到BERT模型中，从而提升模型对CPS指标的识别能力。通过引入AudiBERT模型，可以捕捉到文本信息之外的情感和语调信息，从而提高诊断的准确性和鲁棒性。此外，论文还探讨了如何结合人类专家的知识和AI模型的能力，实现人机协同，以提高诊断的效率和准确性。

技术框架：整体框架包括数据预处理、模型训练和评估三个主要阶段。数据预处理阶段包括文本转录、语音特征提取和数据清洗。模型训练阶段使用AudiBERT模型，该模型将文本和语音特征作为输入，通过Transformer结构进行学习。评估阶段使用标准的分类指标，如精确率、召回率和F1值，来评估模型的性能。此外，论文还进行了相关性分析，以探讨训练数据量和评分者间一致性对模型性能的影响。

关键创新：论文的关键创新在于将多模态学习应用于CPS诊断，并提出了AudiBERT模型，该模型能够有效地融合文本和语音特征。此外，论文还探讨了如何结合人类专家的知识和AI模型的能力，实现人机协同，以提高诊断的效率和准确性。

关键设计：AudiBERT模型在BERT的基础上，增加了一个语音特征编码器，用于提取语音特征。文本和语音特征通过一个融合层进行融合，然后输入到Transformer结构中进行学习。损失函数采用交叉熵损失函数，优化器采用Adam优化器。训练过程中，使用了dropout和early stopping等技术，以防止过拟合。

📊 实验亮点

AudiBERT模型在社会认知维度上，对稀疏类别的分类性能有显著提升，且在类别层面上优于BERT模型。相关性分析表明，更大的训练数据量与更高的召回率显著相关。BERT模型的精确度与人类编码员之间的高度评分者间一致性显著相关。这些结果表明，多模态学习和人机协同在CPS诊断中具有巨大的潜力。

🎯 应用场景

该研究成果可应用于在线教育、团队协作评估等领域。通过自动诊断学生的CPS能力，教师可以及时发现学生在协作过程中遇到的问题，并提供个性化的指导。此外，该技术还可以用于评估团队协作的效率和质量，为团队管理提供决策支持。未来，该技术有望与虚拟现实、增强现实等技术相结合，为学生提供更加沉浸式的协作学习体验。

📄 摘要（原文）

Detecting collaborative problem solving (CPS) indicators from dialogue using machine learning techniques is a significant challenge for the field of AI in Education. Recent studies have explored the use of Bidirectional Encoder Representations from Transformers (BERT) models on transcription data to reliably detect meaningful CPS indicators. A notable advancement involved the multimodal BERT variant, AudiBERT, which integrates speech and acoustic-prosodic audio features to enhance CPS diagnosis. Although initial results demonstrated multimodal improvements, the statistical significance of these enhancements remained unclear, and there was insufficient guidance on leveraging human-AI complementarity for CPS diagnosis tasks. This workshop paper extends the previous research by highlighting that the AudiBERT model not only improved the classification of classes that were sparse in the dataset, but it also had statistically significant class-wise improvements over the BERT model for classifications in the social-cognitive dimension. However, similar significant class-wise improvements over the BERT model were not observed for classifications in the affective dimension. A correlation analysis highlighted that larger training data was significantly associated with higher recall performance for both the AudiBERT and BERT models. Additionally, the precision of the BERT model was significantly associated with high inter-rater agreement among human coders. When employing the BERT model to diagnose indicators within these subskills that were well-detected by the AudiBERT model, the performance across all indicators was inconsistent. We conclude the paper by outlining a structured approach towards achieving human-AI complementarity for CPS diagnosis, highlighting the crucial inclusion of model explainability to support human agency and engagement in the reflective coding process.

Exploring Human-AI Complementarity in CPS Diagnosis Using Unimodal and Multimodal BERT Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理