Exploring Student Choice and the Use of Multimodal Generative AI in Programming Learning

📄 arXiv: 2510.05417v1 📥 PDF

作者: Xinying Hou, Ruiwei Xiao, Runlong Ye, Michael Liut, John Stamper

分类: cs.HC, cs.AI

发布日期: 2025-10-06

备注: 7 pages, accepted to SIGCSE2026


💡 一句话要点

探索多模态生成式AI在编程学习中的应用与学生选择偏好

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 生成式AI 编程教育 人机交互 计算机科学教育

📋 核心要点

  1. 现有研究主要关注文本交互的GenAI工具,忽略了多模态GenAI在编程学习中的潜力。
  2. 本研究通过观察学生使用多模态GenAI工具解决编程问题,分析其模态选择偏好和原因。
  3. 通过“出声思考”实验和访谈,揭示学生选择不同模态的潜在标准,为未来研究提供参考。

📝 摘要(中文)

生成式人工智能(GenAI)的广泛应用正在影响计算机科学教育。近期的研究表明,学生使用GenAI进行编程学习既有益处也存在潜在问题。然而,现有研究主要集中于支持文本交互的GenAI工具。随着技术发展,GenAI应用开始支持多模态通信。本研究探索了本科编程新手如何选择和使用多模态GenAI工具,以及他们的选择标准。我们选择了一个商业化的多模态GenAI平台进行交互,该平台支持多种输入和输出模态,包括文本、音频、图像上传和实时屏幕共享。通过16次结合参与者观察和后续半结构化访谈的“出声思考”实验,我们研究了学生在完成编程问题时对GenAI工具的模态选择,以及模态选择的潜在标准。随着多模态通信成为人工智能教育的未来趋势,本研究旨在激发对计算机科学教育背景下学生与多模态GenAI交互的持续探索。

🔬 方法详解

问题定义:该论文旨在研究在编程学习中,学生如何选择和使用多模态生成式AI工具。现有研究主要集中在文本交互的AI工具,忽略了学生在使用支持多种输入输出模态(如文本、语音、图像、屏幕共享)的AI工具时的选择行为和潜在原因。这限制了我们对AI辅助编程学习的全面理解。

核心思路:核心思路是通过观察学生在解决编程问题时与多模态AI工具的交互过程,分析他们选择不同模态的原因。通过“出声思考”实验,让学生在解决问题的同时表达他们的想法,从而了解他们的选择标准和决策过程。

技术框架:研究采用混合方法,包括:1) 选择一个商业化的多模态GenAI平台,该平台支持多种输入和输出模态。2) 招募本科编程新手作为参与者。3) 进行“出声思考”实验,让参与者使用GenAI平台解决编程问题,同时记录他们的思考过程。4) 进行半结构化访谈,深入了解参与者的选择标准和使用体验。5) 对收集到的数据进行定性分析,识别学生模态选择的模式和主题。

关键创新:该研究的关键创新在于关注多模态GenAI在编程学习中的应用,并深入探讨学生在使用多模态工具时的选择行为。与以往研究主要关注文本交互不同,该研究探索了多种输入输出模态对学生学习体验和效果的影响。

关键设计:研究的关键设计包括:1) 选择具有代表性的多模态GenAI平台,确保其支持多种输入输出模态。2) 设计具有挑战性的编程问题,鼓励学生充分利用GenAI平台的功能。3) 采用“出声思考”方法,尽可能捕捉学生在解决问题时的真实想法和决策过程。4) 通过半结构化访谈,深入挖掘学生选择不同模态的潜在原因。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

该研究通过16次“出声思考”实验和访谈,揭示了学生在使用多模态GenAI工具进行编程学习时的模态选择偏好和潜在标准。研究结果表明,学生会根据问题的性质、自身的编程经验和对不同模态的熟悉程度来选择合适的模态。例如,对于需要可视化的问题,学生更倾向于使用图像输入或屏幕共享功能。

🎯 应用场景

该研究结果可用于指导多模态AI编程学习工具的设计和开发,使其更符合学生的学习习惯和需求。此外,该研究还可以帮助教师更好地了解学生在使用AI工具时的行为,从而制定更有效的教学策略。未来,该研究可以扩展到其他学科领域,探索多模态AI在教育中的更广泛应用。

📄 摘要(原文)

The broad adoption of Generative AI (GenAI) is impacting Computer Science education, and recent studies found its benefits and potential concerns when students use it for programming learning. However, most existing explorations focus on GenAI tools that primarily support text-to-text interaction. With recent developments, GenAI applications have begun supporting multiple modes of communication, known as multimodality. In this work, we explored how undergraduate programming novices choose and work with multimodal GenAI tools, and their criteria for choices. We selected a commercially available multimodal GenAI platform for interaction, as it supports multiple input and output modalities, including text, audio, image upload, and real-time screen-sharing. Through 16 think-aloud sessions that combined participant observation with follow-up semi-structured interviews, we investigated student modality choices for GenAI tools when completing programming problems and the underlying criteria for modality selections. With multimodal communication emerging as the future of AI in education, this work aims to spark continued exploration on understanding student interaction with multimodal GenAI in the context of CS education.