Alignment Drift in CEFR-prompted LLMs for Interactive Spanish Tutoring
作者: Mina Almasi, Ross Deans Kristensen-McLachlan
分类: cs.CL
发布日期: 2025-05-13 (更新: 2025-06-07)
备注: Accepted at BEA2025 (Conference workshop at ACL 2025)
💡 一句话要点
探讨CEFR提示下大语言模型在西班牙语互动辅导中的对齐漂移问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 西班牙语学习 适应性辅导 系统提示 对齐漂移
📋 核心要点
- 现有方法在长期互动中难以保持对话的连贯性和适应性,导致生成文本的质量不稳定。
- 论文提出通过系统提示来约束LLMs生成的文本,以适应不同能力水平的学生,增强互动效果。
- 实验结果显示,尽管系统提示能有效控制文本难度,但在持续互动中仍存在对齐漂移现象,影响了学习效果。
📝 摘要(中文)
本文研究了大语言模型(LLMs)作为适应性辅导工具在第二语言学习中的潜力。特别地,我们评估了系统提示是否能可靠地约束LLMs生成符合学生能力水平的文本。通过模拟西班牙语的完整师生对话,使用7B到12B参数的开源LLMs,交替扮演辅导者和学生角色。结果表明,尽管系统提示可以约束模型输出,但单靠提示在长期互动中表现出脆弱性,称之为对齐漂移。我们的研究为个性化、能力对齐的适应性辅导提供了可行性见解,并提出了一种低成本评估模型性能的方法。
🔬 方法详解
问题定义:本文旨在解决大语言模型在西班牙语学习中生成文本适应性不足的问题。现有方法在长期对话中表现出脆弱性,无法持续满足学生的能力需求。
核心思路:通过系统提示来约束模型输出,使其生成符合学生能力水平的文本。设计上考虑到不同能力水平(A1、B1、C1)的需求,以提高学习效果。
技术框架:整体架构包括两个主要模块:辅导者模型和学生模型。辅导者模型生成教学内容,学生模型则模拟学生的反馈,二者交替进行对话。
关键创新:最重要的创新在于提出了“对齐漂移”这一概念,揭示了系统提示在长期互动中的局限性,强调了模型输出的脆弱性。
关键设计:在模型训练中,采用了基于CEFR的提示策略,设置了不同的难度级别,并使用了特定的损失函数来优化模型输出的适应性。
📊 实验亮点
实验结果表明,系统提示能够有效控制文本的难度,但在长期互动中,模型输出的适应性显著下降,表现出对齐漂移现象。该现象提示了在设计适应性学习系统时需要考虑的关键因素。
🎯 应用场景
该研究的潜在应用领域包括语言学习平台、在线教育和智能辅导系统。通过提供个性化的学习体验,能够有效提升学生的语言能力,具有广泛的实际价值和未来影响。
📄 摘要(原文)
This paper investigates the potentials of Large Language Models (LLMs) as adaptive tutors in the context of second-language learning. In particular, we evaluate whether system prompting can reliably constrain LLMs to generate only text appropriate to the student's competence level. We simulate full teacher-student dialogues in Spanish using instruction-tuned, open-source LLMs ranging in size from 7B to 12B parameters. Dialogues are generated by having an LLM alternate between tutor and student roles with separate chat histories. The output from the tutor model is then used to evaluate the effectiveness of CEFR-based prompting to control text difficulty across three proficiency levels (A1, B1, C1). Our findings suggest that while system prompting can be used to constrain model outputs, prompting alone is too brittle for sustained, long-term interactional contexts - a phenomenon we term alignment drift. Our results provide insights into the feasibility of LLMs for personalized, proficiency-aligned adaptive tutors and provide a scalable method for low-cost evaluation of model performance without human participants.