GenAI Voice Mode in Programming Education

📄 arXiv: 2509.10596v1 📥 PDF

作者: Sven Jacobs, Natalie Kiesler

分类: cs.CY, cs.AI, cs.HC

发布日期: 2025-09-12

备注: Accepted for the 25th International Conference on Computing Education Research (Koli Calling '25)

DOI: 10.1145/3769994.3770001


💡 一句话要点

提出实时语音GenAI辅导以解决新手编程教育的可及性问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 实时语音交互 多模态生成AI 编程教育 可及性 新手程序员 教育工具设计

📋 核心要点

  1. 现有编程教育工具在满足有障碍新手程序员的可及性需求方面存在不足,尤其是在交互和反馈质量上。
  2. 论文提出了一种基于实时语音的GenAI辅导工具,旨在通过自然语言处理提升新手程序员的学习体验。
  3. 实验结果显示,GenAI语音辅导在提供反馈时的正确率为71.4%,并且学生主要用于调试,认为其灵活性和能力较好。

📝 摘要(中文)

实时语音接口结合多模态生成AI(GenAI)有潜力满足有障碍的新手程序员的可及性需求。然而,关于新手如何与GenAI工具互动及其音频输出反馈质量的研究仍然较少。本文分析了九名9年级学生在真实课堂环境中使用语音辅导(基于OpenAI的实时API)学习Python时的音频对话。通过定性编码,我们检查了学生的语音提示和AI的响应(1210条消息),并通过伙伴建模问卷收集了学生的感知。GenAI语音辅导主要提供关于错误和下一步的反馈,但其正确性有限(416条反馈输出中71.4%正确)。在AI尝试表达编程代码元素时观察到质量问题。学生主要将GenAI语音辅导用于调试,认为其能力尚可,略显人性化且灵活。该研究首次探讨了实时语音GenAI辅导与新手程序员的互动动态,为未来教育工具设计提供了信息,并可能满足多样化学习者的可及性需求。

🔬 方法详解

问题定义:本研究旨在解决新手程序员在编程学习中面临的可及性问题,尤其是视觉障碍者在使用传统编程工具时的困难。现有方法在交互性和反馈质量方面存在不足,无法有效支持这些学习者。

核心思路:论文的核心思路是利用实时语音GenAI辅导工具,通过自然语言交互提升新手程序员的学习体验,特别是针对有障碍的学习者。设计上强调了语音交互的自然性和反馈的及时性。

技术框架:整体架构包括语音识别模块、生成AI反馈模块和用户交互界面。学生通过语音输入与AI进行对话,AI实时生成反馈并通过语音输出。

关键创新:最重要的技术创新点在于将多模态生成AI应用于编程教育,首次实现了实时语音辅导与新手程序员的互动,填补了这一领域的研究空白。

关键设计:在技术细节上,使用了OpenAI的实时API进行语音识别和生成,设置了特定的反馈机制以提高反馈的相关性和准确性。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果显示,GenAI语音辅导在提供反馈时的正确率为71.4%,在416条反馈输出中表现出一定的准确性。学生主要将其用于调试,认为其在灵活性和能力上表现良好,展示了该工具在编程教育中的潜力。

🎯 应用场景

该研究的潜在应用领域包括编程教育、特殊教育和在线学习平台。通过提供实时语音辅导,能够帮助有障碍的学习者更好地掌握编程技能,提升他们的学习效率和参与感。未来,这种技术可能会在更多教育场景中得到应用,促进教育公平。

📄 摘要(原文)

Real-time voice interfaces using multimodal Generative AI (GenAI) can potentially address the accessibility needs of novice programmers with disabilities (e.g., related to vision). Yet, little is known about how novices interact with GenAI tools and their feedback quality in the form of audio output. This paper analyzes audio dialogues from nine 9th-grade students using a voice-enabled tutor (powered by OpenAI's Realtime API) in an authentic classroom setting while learning Python. We examined the students' voice prompts and AI's responses (1210 messages) by using qualitative coding. We also gathered students' perceptions via the Partner Modeling Questionnaire. The GenAI Voice Tutor primarily offered feedback on mistakes and next steps, but its correctness was limited (71.4% correct out of 416 feedback outputs). Quality issues were observed, particularly when the AI attempted to utter programming code elements. Students used the GenAI voice tutor primarily for debugging. They perceived it as competent, only somewhat human-like, and flexible. The present study is the first to explore the interaction dynamics of real-time voice GenAI tutors and novice programmers, informing future educational tool design and potentially addressing accessibility needs of diverse learners.