Alignment Drift in CEFR-prompted LLMs for Interactive Spanish Tutoring

📄 arXiv: 2505.08351v2 📥 PDF

作者: Mina Almasi, Ross Deans Kristensen-McLachlan

分类: cs.CL

发布日期: 2025-05-13 (更新: 2025-06-07)

备注: Accepted at BEA2025 (Conference workshop at ACL 2025)


💡 一句话要点

研究CEFR提示的大语言模型在西班牙语互动教学中存在的对齐漂移问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 自适应辅导 西班牙语教学 CEFR 对齐漂移 系统提示 语言学习

📋 核心要点

  1. 现有方法难以保证LLM在长期互动教学中持续生成符合学生能力水平的文本。
  2. 论文核心思想是评估基于CEFR的系统提示对LLM生成文本难度的控制能力,并观察长期交互中的对齐漂移现象。
  3. 实验结果表明,虽然初始提示有效,但在长期对话中,LLM的输出会逐渐偏离目标难度级别,出现对齐漂移。

📝 摘要(中文)

本文探讨了大型语言模型(LLMs)作为第二语言学习自适应辅导工具的潜力。特别地,我们评估了系统提示是否能够可靠地约束LLMs,使其仅生成适合学生能力水平的文本。我们使用指令调整的、开源的LLMs(规模从7B到12B参数不等)模拟了完整的师生西班牙语对话。通过让LLM在导师和学生角色之间交替,并使用单独的聊天记录来生成对话。然后,使用导师模型的输出评估基于CEFR的提示在三个熟练程度级别(A1、B1、C1)上控制文本难度的有效性。我们的研究结果表明,虽然系统提示可以用来约束模型输出,但仅靠提示对于持续的、长期的交互环境来说过于脆弱——我们称之为对齐漂移现象。我们的结果为了解LLMs在个性化、熟练度对齐的自适应辅导中的可行性提供了见解,并为低成本评估模型性能(无需人类参与者)提供了一种可扩展的方法。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在作为西班牙语自适应辅导工具时,如何保证生成内容与学生能力水平对齐的问题。现有方法,即简单的系统提示,在长期交互中存在“对齐漂移”现象,无法持续生成合适难度的文本。

核心思路:论文的核心思路是,通过模拟师生对话,观察基于CEFR(欧洲共同语言参考标准)的系统提示,在长期交互中对LLM生成文本难度的控制效果。通过分析LLM在对话过程中的输出,评估其是否能够始终如一地生成符合学生特定能力水平(A1, B1, C1)的西班牙语文本。

技术框架:整体框架包含以下步骤:1) 使用指令调整的开源LLM(7B-12B参数)分别扮演导师和学生角色;2) 为导师角色设置基于CEFR的系统提示,指定目标难度级别;3) 让导师和学生角色交替进行对话,生成多轮对话历史;4) 分析导师角色的输出,评估其是否符合目标难度级别,并观察是否存在对齐漂移现象。

关键创新:论文的关键创新在于发现了LLM在长期交互式教学场景中存在的“对齐漂移”现象,即LLM的输出会逐渐偏离预设的难度级别。此外,论文提出了一种无需人工参与,即可低成本评估LLM在自适应辅导任务中性能的可扩展方法。

关键设计:论文的关键设计包括:1) 使用CEFR标准作为难度分级的依据,确保提示的明确性和可操作性;2) 模拟完整的师生对话,更真实地反映LLM在实际应用中的表现;3) 采用多个难度级别(A1, B1, C1)进行评估,更全面地了解LLM的性能特点;4) 使用开源LLM,方便研究人员复现和扩展研究。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于CEFR的系统提示在初始阶段可以有效控制LLM生成文本的难度,但在长期对话中,LLM的输出会逐渐偏离目标难度级别,出现明显的对齐漂移现象。这表明,仅靠提示难以保证LLM在长期互动教学中的稳定性和可靠性。具体性能数据未知。

🎯 应用场景

该研究成果可应用于开发个性化、自适应的语言学习辅导系统。通过深入理解LLM的对齐漂移现象,可以设计更有效的提示策略或训练方法,提升LLM在教育领域的应用效果,为学生提供更优质的语言学习体验。此外,该研究提出的评估方法可用于快速评估LLM在其他自适应任务中的性能。

📄 摘要(原文)

This paper investigates the potentials of Large Language Models (LLMs) as adaptive tutors in the context of second-language learning. In particular, we evaluate whether system prompting can reliably constrain LLMs to generate only text appropriate to the student's competence level. We simulate full teacher-student dialogues in Spanish using instruction-tuned, open-source LLMs ranging in size from 7B to 12B parameters. Dialogues are generated by having an LLM alternate between tutor and student roles with separate chat histories. The output from the tutor model is then used to evaluate the effectiveness of CEFR-based prompting to control text difficulty across three proficiency levels (A1, B1, C1). Our findings suggest that while system prompting can be used to constrain model outputs, prompting alone is too brittle for sustained, long-term interactional contexts - a phenomenon we term alignment drift. Our results provide insights into the feasibility of LLMs for personalized, proficiency-aligned adaptive tutors and provide a scalable method for low-cost evaluation of model performance without human participants.