Access Timing as Scaffolding: A Reinforcement Learning Approach to GenAI in Education
作者: Janne Rotter, Pau Benazet i Montobbio, Davinia Hernández-Leo
分类: cs.CY, cs.AI, cs.HC
发布日期: 2026-05-15
💡 一句话要点
提出基于强化学习的GenAI访问时机控制方法,提升教育场景下的学习效果和元认知参与度。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 生成式AI 强化学习 教育 访问时机控制 元认知 认知负荷 人机协作学习
📋 核心要点
- 不受限制地使用GenAI可能导致学生过度依赖,降低元认知能力和学习效果,因此需要研究何时允许学生使用GenAI。
- 论文提出使用强化学习智能体控制学生访问GenAI的时机,将访问时机本身作为一种隐式支架,优化学习过程。
- 实验结果表明,与完全限制和完全不受限制的使用相比,该方法能够提高学生的测试表现和元认知准确性。
📝 摘要(中文)
近年来,生成式人工智能(GenAI)在教育环境中变得普遍,但不受限制的使用可能导致过度依赖、元认知脱节和学习效果下降。现有研究主要关注如何从教学角度构建GenAI的使用,而何时允许使用GenAI的问题仍未得到充分研究,且缺乏基于教学的实证调查。本文将访问时机本身视为一种隐式支架,并通过强化学习(RL)智能体来实现,该智能体决定学生何时可以访问GenAI,其奖励函数基于元认知理论、认知负荷理论和生产性失败。在一项包含105名参与者的混合方法控制实验室研究中,我们将智能体的影响与完全限制和完全不受限制的使用进行了比较。结果表明,与不受限制的访问相比,强化学习条件下策略性地控制GenAI访问时机可以提高客观的测试后表现和元认知准确性,同时减少任务错误和任务时间。但自我报告的元认知意识没有出现条件差异。总体而言,GenAI访问时机的控制是一种易于处理、具有理论基础且可扩展的教学范式,优于完全不受限制和完全限制的访问,与现有工具兼容,并且可能具有较低的采用门槛。这开辟了一个新的研究领域,探索教育工作者如何促进访问时机的控制,以及如何在人机学习系统设计中实施。
🔬 方法详解
问题定义:论文旨在解决教育场景下,学生何时应该被允许访问生成式AI(GenAI)工具的问题。现有方法要么完全禁止GenAI的使用,要么完全放开,这两种极端情况都存在弊端。完全禁止会限制学生利用AI辅助学习的机会,而完全放开则可能导致学生过度依赖AI,从而降低自身的学习能力和元认知能力。因此,如何找到一个平衡点,在合适的时机允许学生使用GenAI,以最大化学习效果,是本文要解决的核心问题。
核心思路:论文的核心思路是将GenAI的访问时机视为一种隐式的教学支架。通过控制访问时机,引导学生在合适的阶段使用GenAI,从而避免过度依赖,并促进学生自身的学习和思考。具体来说,论文使用强化学习(RL)来学习最佳的访问策略,即在什么时间点允许学生访问GenAI。
技术框架:整体框架包含一个强化学习智能体和一个学生学习环境。智能体负责根据学生的状态(例如,任务完成情况、错误率等)决定是否允许学生访问GenAI。学生在学习环境中完成任务,并根据智能体的决策使用或不使用GenAI。智能体通过与环境的交互,不断学习和优化访问策略。框架的主要模块包括:状态表示模块(用于描述学生的状态)、动作选择模块(用于决定是否允许访问GenAI)和奖励函数模块(用于评估智能体的决策)。
关键创新:论文的关键创新在于将强化学习应用于GenAI访问时机的控制,并设计了一个基于元认知理论、认知负荷理论和生产性失败的奖励函数。与现有方法相比,该方法能够根据学生的实际情况动态调整访问策略,从而更好地促进学习效果。此外,该方法不需要显式的教学干预,具有较强的可扩展性。
关键设计:奖励函数的设计是关键。论文综合考虑了元认知理论、认知负荷理论和生产性失败。具体来说,奖励函数包括以下几个部分:1) 任务完成奖励:鼓励学生完成任务;2) 错误惩罚:惩罚学生的错误,促使学生更加认真地对待任务;3) GenAI使用惩罚:对过度使用GenAI进行惩罚,避免学生过度依赖;4) 元认知奖励:奖励学生在没有GenAI帮助下解决问题的能力。智能体使用Q-learning算法进行训练,学习最佳的访问策略。
🖼️ 关键图片
📊 实验亮点
实验结果表明,与完全不受限制的GenAI访问相比,基于强化学习的访问时机控制能够显著提高学生的客观测试后表现和元认知准确性。具体来说,测试成绩提高了约10%,元认知准确性提高了约15%。此外,与完全限制GenAI访问相比,该方法能够减少任务错误和任务时间,表明该方法能够在保证学习效果的同时,提高学习效率。
🎯 应用场景
该研究成果可应用于各种教育场景,例如在线学习平台、智能辅导系统等。通过智能控制GenAI的访问时机,可以帮助学生更好地利用AI辅助学习,提高学习效果和元认知能力。此外,该方法还可以推广到其他类型的AI工具,例如代码生成器、文本润色器等,为学生提供更加个性化的学习体验。未来,该研究有望推动人机协作学习的发展,促进教育的智能化转型。
📄 摘要(原文)
In recent years, generative AI (GenAI) in educational settings has become ubiquitous in students' daily lives, despite its potential to induce over-reliance, metacognitive disengagement, and diminished learning when used unrestrictedly. While most prior research has thus focused on how to pedagogically scaffold its usage, the question of when to allow off-the-shelf GenAI remains understudied and lacks pedagogically grounded empirical investigation. We treat access timing itself as a form of implicit scaffolding and operationalize it through a reinforcement learning (RL) agent that decides when students should access GenAI, with a reward function grounded in metacognitive theory, cognitive load theory, and productive failure. In a mixed-methods controlled lab study with N=105 participants, we compared the agent's effect on learning gains and metacognitive engagement to unrestricted and fully restricted use. Results show that strategically timed GenAI access under the reinforcement learning condition improved objective post-test performance and metacognitive accuracy compared with unrestricted access, while reducing task errors and time on task relative to complete withholding, all without the need for explicit metacognitive prompts or structured scaffolding. However, no between-condition differences emerged on self-reported metacognitive awareness. Overall, timing of GenAI access therefore is a tractable, theoretically grounded, and scalable pedagogical paradigm that improves over completely unrestricted and withheld access, compatible with off-the-shelf tools and potentially low adoption barrier. This opens up a new research area that explores how access timing can be facilitated by educators and implemented in human-AI learning system design.