Evaluating the Effectiveness of Large Language Models in Solving Simple Programming Tasks: A User-Centered Study

📄 arXiv: 2507.04043v1 📥 PDF

作者: Kai Deng

分类: cs.HC, cs.AI

发布日期: 2025-07-05


💡 一句话要点

研究不同交互方式的LLM对高中生编程学习的影响,协同式交互提升效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 编程教育 人机交互 协同学习 ChatGPT-4o

📋 核心要点

  1. 现有LLM在编程教育中应用广泛,但缺乏对不同交互方式有效性的系统评估。
  2. 本研究设计被动、主动和协同三种交互模式,探究不同模式下LLM对编程学习的影响。
  3. 实验表明,协同式交互能显著提升编程任务完成效率和用户满意度,具有实际意义。

📝 摘要(中文)

本研究探讨了大型语言模型(LLM)在教育工具和编程环境中与用户交互方式的问题。通过一项针对15名高中生的实验,评估了ChatGPT-4o的三种交互风格(被动、主动和协同)对简单编程任务的影响。实验采用被试内设计,每个学生在三种不同版本的模型下完成三个问题。结果表明,与被动和主动模式相比,协同交互风格显著缩短了任务完成时间。此外,参与者在使用协同版本时报告了更高的满意度和感知到的帮助。研究强调了LLM的沟通方式、引导和响应方式对学习和表现的重要影响,并指出设计LLM时应超越功能正确性,以支持更具交互性、适应性和以用户为中心的体验,尤其对于编程新手。

🔬 方法详解

问题定义:论文旨在解决如何优化大型语言模型(LLM)与编程初学者的交互方式,以提升他们的学习效率和用户体验的问题。现有方法,即被动式(仅在被询问时响应)和主动式(自动提供建议)的LLM交互,可能无法充分满足初学者的学习需求,存在引导不足或干扰过多的问题。

核心思路:论文的核心思路是探索一种协同式的LLM交互方式,通过与用户进行双向对话,提供更个性化、更具针对性的帮助和指导。这种方式旨在模拟人类导师的角色,根据用户的具体情况和反馈,动态调整帮助策略,从而提高学习效果。

技术框架:本研究采用了一个被试内实验设计,15名高中生参与了实验。他们需要在三种不同的ChatGPT-4o版本(被动、主动、协同)下完成三个简单的编程任务。每个版本的ChatGPT-4o代表一种特定的AI支持风格。研究收集了任务完成时间、用户满意度调查和感知有用性等数据。

关键创新:本研究的关键创新在于提出了协同式LLM交互的概念,并验证了其在编程学习中的有效性。与传统的被动式和主动式方法相比,协同式交互能够更好地适应用户的学习节奏和需求,提供更有效的帮助。

关键设计:协同式ChatGPT-4o的设计重点在于模拟人类导师的对话模式。具体实现细节未知,但可以推测其关键设计包括:1) 能够理解用户的编程意图和遇到的问题;2) 能够提供清晰、简洁的解释和建议;3) 能够根据用户的反馈调整帮助策略;4) 能够鼓励用户积极思考和解决问题。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,与被动和主动交互方式相比,协同交互方式显著缩短了高中生完成简单编程任务的时间。此外,参与者在使用协同式ChatGPT-4o时,报告了更高的满意度和感知到的帮助。这些数据表明,协同式交互在提升编程学习效果和用户体验方面具有显著优势。

🎯 应用场景

该研究成果可应用于各种编程学习平台和工具,通过优化LLM的交互方式,提升初学者的学习效率和用户体验。未来,可以进一步探索更智能、更个性化的LLM交互策略,例如根据用户的学习风格和知识水平,动态调整帮助方式,实现自适应学习。

📄 摘要(原文)

As large language models (LLMs) become more common in educational tools and programming environments, questions arise about how these systems should interact with users. This study investigates how different interaction styles with ChatGPT-4o (passive, proactive, and collaborative) affect user performance on simple programming tasks. I conducted a within-subjects experiment where fifteen high school students participated, completing three problems under three distinct versions of the model. Each version was designed to represent a specific style of AI support: responding only when asked, offering suggestions automatically, or engaging the user in back-and-forth dialogue.Quantitative analysis revealed that the collaborative interaction style significantly improved task completion time compared to the passive and proactive conditions. Participants also reported higher satisfaction and perceived helpfulness when working with the collaborative version. These findings suggest that the way an LLM communicates, how it guides, prompts, and responds, can meaningfully impact learning and performance. This research highlights the importance of designing LLMs that go beyond functional correctness to support more interactive, adaptive, and user-centered experiences, especially for novice programmers.