IntrEx: A Dataset for Modeling Engagement in Educational Conversations
作者: Xingwei Tan, Mahathi Parvatham, Chiara Gambi, Gabriele Pergola
分类: cs.CL
发布日期: 2025-09-08 (更新: 2025-09-17)
备注: EMNLP 2025 Findings camera-ready, 9+7 pages
💡 一句话要点
IntrEx:构建教育对话中兴趣建模的大型数据集,提升LLM在教育场景的对话能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 教育对话 兴趣建模 大型数据集 语言模型微调 二语习得
📋 核心要点
- 现有研究缺乏对驱动教育对话中兴趣的语言特征的深入理解,限制了二语习得的效果。
- IntrEx数据集通过序列标注和比较式评分,捕捉师生互动中兴趣的动态变化,为建模对话参与度提供了新视角。
- 实验表明,在IntrEx上微调的小型LLM优于大型商业模型,验证了专用数据集在教育场景中的价值。
📝 摘要(中文)
为了解决二语习得中保持学习者兴趣的挑战,本文提出了IntrEx,这是首个针对师生互动中“有趣程度”和“预期有趣程度”进行标注的大型数据集。IntrEx构建于师生聊天室语料库(TSCC)之上,通过引入序列级别的标注,扩展了先前的工作,从而能够研究兴趣如何在对话中演变。该数据集采用严格的标注流程,超过100名二语学习者参与,并使用受人类反馈强化学习(RLHF)启发的比较式评分方法来提高一致性。研究还探讨了大型语言模型(LLM)预测人类对有趣程度判断的能力。实验表明,在有趣程度评分上微调的LLM(7B/8B参数)优于GPT-4o等更大的专有模型,证明了专用数据集在教育环境中建模参与度的潜力。最后,分析了具体性、可理解性(可读性)和接受度等语言和认知因素如何影响教育对话中的参与度。
🔬 方法详解
问题定义:现有方法难以有效建模教育对话中的学生参与度,尤其缺乏对对话过程中兴趣动态变化的捕捉。以往研究主要关注文本的有趣程度,而忽略了对话互动中语言特征对学生兴趣的影响。因此,如何构建能够反映对话语境和学生兴趣变化的数据集,并利用该数据集提升语言模型在教育场景下的对话能力,是本文要解决的关键问题。
核心思路:本文的核心思路是构建一个专门针对教育对话中学生兴趣度进行标注的大型数据集IntrEx。通过序列标注的方式,捕捉对话过程中兴趣的动态变化,并采用比较式评分方法提高标注质量。然后,利用该数据集微调大型语言模型,使其能够更好地预测学生对对话内容的兴趣程度,从而提升模型在教育场景下的对话能力。
技术框架:IntrEx数据集的构建流程主要包括以下几个阶段:1) 基于Teacher-Student Chatroom Corpus (TSCC)构建初始语料;2) 设计序列标注方案,标注对话中每个turn的“有趣程度”和“预期有趣程度”;3) 采用比较式评分方法,由超过100名二语学习者进行标注,提高标注一致性;4) 利用标注好的数据集微调大型语言模型;5) 分析语言和认知因素(如具体性、可理解性、接受度)对学生兴趣的影响。
关键创新:该论文的关键创新在于:1) 提出了IntrEx数据集,这是首个针对教育对话中学生兴趣度进行序列标注的大型数据集;2) 采用比较式评分方法,提高了标注质量和一致性;3) 证明了在IntrEx数据集上微调的小型LLM能够超越大型商业模型,表明了专用数据集在特定领域的重要性。
关键设计:在标注过程中,采用了受人类反馈强化学习(RLHF)启发的比较式评分方法,要求标注者对不同对话片段的有趣程度进行比较,从而提高标注的区分度和一致性。此外,在微调LLM时,使用了标准的监督学习方法,并针对有趣程度的预测任务设计了合适的损失函数。具体参数设置和网络结构细节在论文中未详细说明,属于未知信息。
📊 实验亮点
实验结果表明,在IntrEx数据集上微调的7B/8B参数LLM在预测人类对有趣程度的判断方面,优于GPT-4o等更大的专有模型。这表明,通过构建专门针对教育场景的数据集,可以有效提升LLM在该领域的性能,即使模型规模较小也能取得显著效果。具体的性能提升幅度未在摘要中明确给出,属于未知信息。
🎯 应用场景
该研究成果可应用于智能教育系统、在线辅导平台和语言学习App等领域。通过理解和预测学生的兴趣,系统可以动态调整教学内容和互动方式,从而提高学生的学习积极性和学习效果。此外,该数据集和模型还可以用于评估教育资源的质量和有效性,为教育工作者提供参考。
📄 摘要(原文)
Engagement and motivation are crucial for second-language acquisition, yet maintaining learner interest in educational conversations remains a challenge. While prior research has explored what makes educational texts interesting, still little is known about the linguistic features that drive engagement in conversations. To address this gap, we introduce IntrEx, the first large dataset annotated for interestingness and expected interestingness in teacher-student interactions. Built upon the Teacher-Student Chatroom Corpus (TSCC), IntrEx extends prior work by incorporating sequence-level annotations, allowing for the study of engagement beyond isolated turns to capture how interest evolves over extended dialogues. We employ a rigorous annotation process with over 100 second-language learners, using a comparison-based rating approach inspired by reinforcement learning from human feedback (RLHF) to improve agreement. We investigate whether large language models (LLMs) can predict human interestingness judgments. We find that LLMs (7B/8B parameters) fine-tuned on interestingness ratings outperform larger proprietary models like GPT-4o, demonstrating the potential for specialised datasets to model engagement in educational settings. Finally, we analyze how linguistic and cognitive factors, such as concreteness, comprehensibility (readability), and uptake, influence engagement in educational dialogues.