The Crutch or the Ceiling? How Different Generations of LLMs Shape EFL Student Writings

作者: Hengky Susanto, David James Woo, Chingyi Yeung, Stephanie Wing Yan Lo-Philip, Chi Ho Yeung

分类: cs.HC, cs.AI

发布日期: 2026-04-16

💡 一句话要点

研究不同代LLM对EFL学生写作的影响：支柱还是天花板？

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 EFL写作 AI辅助教学 写作评估 教育技术

📋 核心要点

现有研究侧重于LLM辅助写作的输出质量，忽略了LLM自身发展对EFL学生写作能力的影响。
本研究通过对比不同代LLM辅助下EFL学生的写作表现，评估其对学生写作能力的真实影响。
实验结果表明，高级LLM可能提高低水平学习者分数，但会掩盖其真实能力，并降低写作的深度连贯性。

📝 摘要（中文）

大型语言模型（LLMs）的快速发展使其成为增强学生写作的强大工具。本研究探讨了LLMs在辅助中等水平英语作为外语（EFL）学生完成写作任务方面的程度和局限性。现有研究主要关注输出质量，而我们的研究考察了LLMs的发展变化及其对EFL学生的影响，评估更智能的模型是真正的支架还是仅仅是补偿性的拐杖。为此，我们分析了ChatGPT发布前后LLMs辅助下的学生作文，使用专家定性评分和定量指标（可读性测试、Pearson相关系数、MTLD等）。结果表明，高级LLMs提高了低水平学习者的评估分数和词汇多样性，可能掩盖了他们的真实能力。至关重要的是，LLM辅助的增加与人类专家评分呈负相关，表明表面流畅但缺乏深度连贯性。为了将人工智能辅助实践转变为真正的学习，教学必须从关注输出质量转变为验证学习过程。教育工作者应调整人工智能功能，特别是在学习者的最近发展区内区分概念支架和文本生成。

🔬 方法详解

问题定义：论文旨在研究不同代大型语言模型（LLMs）对英语作为外语（EFL）学习者写作能力的影响。现有研究主要关注LLM辅助写作的最终产出质量，而忽略了LLM本身的发展变化以及这种变化对学生真实写作能力的影响。现有方法未能区分LLM是作为学习的“支柱”（scaffold），帮助学生提升能力，还是仅仅作为“拐杖”（crutch），掩盖学生真实水平。

核心思路：论文的核心思路是对比分析在不同代LLM（ChatGPT发布前后）辅助下，EFL学生的写作表现。通过专家评分和多种定量指标，评估LLM对学生写作质量、词汇多样性、可读性等方面的影响。重点考察LLM辅助是否真正提升了学生的写作能力，还是仅仅提高了表面流畅度，掩盖了其在写作深度和连贯性方面的不足。通过分析LLM辅助程度与专家评分之间的相关性，判断LLM是作为学习的促进者还是阻碍者。

技术框架：研究框架主要包括以下几个阶段： 1. 数据收集：收集ChatGPT发布前后，LLM辅助下EFL学生的作文。 2. 专家评分：邀请英语教学专家对学生作文进行定性评分，评估写作质量、连贯性、深度等。 3. 定量分析：使用多种定量指标分析学生作文，包括可读性测试、Pearson相关系数、MTLD（衡量词汇多样性）等。 4. 相关性分析：分析LLM辅助程度与专家评分之间的相关性，评估LLM对学生写作能力的真实影响。 5. 教学建议：根据研究结果，提出在AI辅助写作教学中，如何更好地利用LLM，促进学生写作能力提升的教学建议。

关键创新：论文的关键创新在于： 1. 关注LLM自身发展对EFL学生写作能力的影响，而不仅仅是最终产出质量。 2. 区分LLM作为“支柱”和“拐杖”的不同角色，深入探讨LLM辅助对学生真实写作能力的潜在影响。 3. 结合专家定性评分和多种定量指标，全面评估LLM对学生写作的各个方面的影响。

关键设计：论文的关键设计包括： 1. 选择ChatGPT发布前后作为时间节点，对比不同代LLM的辅助效果。 2. 使用多种定量指标，如可读性测试、Pearson相关系数、MTLD等，全面评估学生作文的各个方面。 3. 通过相关性分析，评估LLM辅助程度与专家评分之间的关系，判断LLM对学生写作能力的真实影响。

📊 实验亮点

研究表明，高级LLM提高了低水平学习者的评估分数和词汇多样性，但可能掩盖了他们的真实能力。更重要的是，LLM辅助的增加与人类专家评分呈负相关，表明表面流畅但缺乏深度连贯性。这说明过度依赖LLM可能导致学生写作能力停滞不前，甚至倒退。

🎯 应用场景

该研究成果可应用于EFL教学领域，帮助教师更好地理解LLM对学生写作的影响，并制定更有效的AI辅助教学策略。通过区分LLM的“支柱”和“拐杖”角色，教师可以更有针对性地利用LLM，促进学生写作能力的真正提升，避免过度依赖LLM而阻碍学生自身能力的培养。研究结果也为LLM开发者提供了改进方向，使其更好地服务于教育领域。

📄 摘要（原文）

The rapid evolution of Large Language Models (LLMs) has made them powerful tools for enhancing student writing. This study explores the extent and limitations of LLMs in assisting secondary-level English as a Foreign Language (EFL) students with their writing tasks. While existing studies focus on output quality, our research examines the developmental shift in LLMs and their impact on EFL students, assessing whether smarter models act as true scaffolds or mere compensatory crutches. To achieve this, we analyse student compositions assisted by LLMs before and after ChatGPT's release, using both expert qualitative scoring and quantitative metrics (readability tests, Pearson's correlation coefficient, MTLD, and others). Our results indicate that advanced LLMs boost assessment scores and lexical diversity for lower-proficiency learners, potentially masking their true ability. Crucially, increased LLM assistance correlated negatively with human expert ratings, suggesting surface fluency without deep coherence. To transform AI-assisted practice into genuine learning, pedagogy must shift from focusing on output quality to verifying the learning process. Educators should align AI functions, specifically differentiating ideational scaffolding from textual production, within the learner's Zone of Proximal Development.

The Crutch or the Ceiling? How Different Generations of LLMs Shape EFL Student Writings

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理