Predicting States of Understanding in Explanatory Interactions Using Cognitive Load-Related Linguistic Cues

📄 arXiv: 2603.20079v1 📥 PDF

作者: Yu Wang, Olcay Türk, Angela Grimminger, Hendrik Buschmeier

分类: cs.CL

发布日期: 2026-03-20


💡 一句话要点

利用认知负荷相关语言线索预测解释性互动中的理解状态

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 理解状态预测 认知负荷 语言线索 多模态融合 人机交互

📋 核心要点

  1. 现有方法难以在解释性互动中实时预测听者的理解状态,缺乏对认知负荷相关语言线索的有效利用。
  2. 本文提出利用说话者的信息价值和句法复杂性,以及听者的注视行为变化,作为理解状态预测的关键线索。
  3. 实验结果表明,结合这些语言线索可以有效预测听者的四种理解状态,优于仅使用文本特征的方法。

📝 摘要(中文)

本文研究了对话中说话者和倾听者表现出的口头和非口头语言特征如何有助于逐时预测倾听者的理解状态。具体而言,我们考察了三种与认知负荷相关的语言线索,并假设这些线索与倾听者的理解程度相关:说话者话语的信息价值(用惊异度来衡量)和句法复杂性,以及倾听者互动注视行为的变化。基于对MUNDEX语料库(面对面棋盘游戏解释对话)的统计分析,我们发现个体线索随倾听者的理解水平而变化。倾听者使用回顾性视频回忆方法自我标注理解状态(“理解”、“部分理解”、“不理解”和“误解”)。随后的分类实验结果表明,使用两种现成的分类器和一个经过微调的基于德语BERT的多模态分类器,预测这四种理解状态通常是可行的,并且当同时考虑这三种语言线索和文本特征时,预测效果会得到改善。

🔬 方法详解

问题定义:论文旨在解决在解释性互动场景中,如何实时准确地预测听者的理解状态,包括“理解”、“部分理解”、“不理解”和“误解”四种状态。现有方法通常依赖于文本特征,忽略了认知负荷相关的语言线索,导致预测精度不足。

核心思路:论文的核心思路是利用与认知负荷相关的语言线索来推断听者的理解状态。认知负荷越高,可能表明听者正在努力理解,或者已经出现理解偏差。通过分析说话者的语言特征(信息价值和句法复杂性)和听者的非语言行为(注视行为),可以更准确地评估听者的理解程度。

技术框架:整体框架包括数据收集(MUNDEX语料库),特征提取(说话者语言特征和听者注视行为),理解状态标注(回顾性视频回忆),以及分类模型训练和评估。主要模块包括:1) 说话者话语的惊异度计算模块;2) 说话者话语句法复杂性分析模块;3) 听者注视行为变化分析模块;4) 基于BERT的多模态分类器。

关键创新:论文的关键创新在于将认知负荷相关的语言线索(说话者的信息价值和句法复杂性,以及听者的注视行为)引入到理解状态预测任务中。与传统方法仅依赖文本特征不同,本文提出的方法能够捕捉到更丰富的交互信息,从而提高预测精度。

关键设计:在特征提取方面,使用surprisal来量化说话者话语的信息价值,采用句法分析工具来衡量句法复杂性,并分析听者注视行为的变化模式。分类器方面,使用了现成的分类器以及一个基于德语BERT进行微调的多模态分类器,该分类器能够融合文本特征和语言线索特征。损失函数采用交叉熵损失函数,优化器采用Adam。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,结合认知负荷相关的语言线索可以显著提高理解状态预测的准确率。与仅使用文本特征的基线模型相比,本文提出的方法在四种理解状态的分类任务中取得了更好的性能。基于BERT的多模态分类器表现最佳,验证了多模态信息融合的有效性。

🎯 应用场景

该研究成果可应用于智能辅导系统、人机协作、会议系统等领域。通过实时预测用户的理解状态,系统可以动态调整解释策略,提供个性化的帮助,从而提高沟通效率和学习效果。未来可扩展到更广泛的人机交互场景,例如远程教育、虚拟助手等。

📄 摘要(原文)

We investigate how verbal and nonverbal linguistic features, exhibited by speakers and listeners in dialogue, can contribute to predicting the listener's state of understanding in explanatory interactions on a moment-by-moment basis. Specifically, we examine three linguistic cues related to cognitive load and hypothesised to correlate with listener understanding: the information value (operationalised with surprisal) and syntactic complexity of the speaker's utterances, and the variation in the listener's interactive gaze behaviour. Based on statistical analyses of the MUNDEX corpus of face-to-face dialogic board game explanations, we find that individual cues vary with the listener's level of understanding. Listener states ('Understanding', 'Partial Understanding', 'Non-Understanding' and 'Misunderstanding') were self-annotated by the listeners using a retrospective video-recall method. The results of a subsequent classification experiment, involving two off-the-shelf classifiers and a fine-tuned German BERT-based multimodal classifier, demonstrate that prediction of these four states of understanding is generally possible and improves when the three linguistic cues are considered alongside textual features.