Generative AI as a metacognitive agent: A comparative mixed-method study with human participants on ICF-mimicking exam performance
作者: Jelena Pavlovic, Jugoslav Krstic, Luka Mitrovic, Djordje Babic, Adrijana Milosavljevic, Milena Nikolic, Tijana Karaklic, Tijana Mitrovic
分类: cs.HC, cs.AI
发布日期: 2024-05-07
💡 一句话要点
研究表明生成式AI在模拟ICF考试中表现出超越人类的元认知能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 生成式AI 元认知 大型语言模型 ICF考试 情境判断测试
📋 核心要点
- 现有方法难以准确评估LLM在复杂情境下的元认知能力,尤其是在涉及人类专业技能的场景中。
- 本研究通过模拟ICF教练考试,对比LLM与人类的元认知表现,揭示AI在特定任务中的元认知潜力。
- 实验结果表明,LLM在元认知指标上优于人类,尤其在降低过度自信方面,但适应性在模糊情境下仍有不足。
📝 摘要(中文)
本研究调查了大型语言模型(LLM)相对于人类在国际教练联合会(ICF)模拟考试中的元认知能力,该考试是一种与教练能力相关的态势判断测试。采用混合方法,我们评估了人类参与者和五种先进LLM(GPT-4、Claude-3-Opus 3、Mistral Large、Llama 3和Gemini 1.5 Pro)的元认知表现,包括敏感性、概率预测的准确性和偏差。结果表明,LLM在所有元认知指标上均优于人类,尤其是在降低过度自信方面。然而,LLM和人类在模糊情境下的适应性均较差,紧密遵循预定义的决策框架。该研究表明,生成式AI可以有效地进行类似人类的元认知处理,而无需有意识的感知。讨论了该研究对开发AI模拟器的影响,该模拟器可以支持掌握教练能力的认知和元认知方面。更广泛地说,这些结果对开发元认知模块具有重要意义,这些模块将引导开发更自主和直观的AI系统。
🔬 方法详解
问题定义:本研究旨在评估大型语言模型(LLM)在模拟国际教练联合会(ICF)考试中的元认知能力。现有方法难以有效衡量LLM在复杂、涉及人类专业技能情境下的元认知表现,并且缺乏对LLM在不同情境下的适应性的深入理解。
核心思路:核心思路是通过模拟ICF考试,将LLM与人类参与者的表现进行对比,从而量化LLM的元认知能力。ICF考试是一种情境判断测试,能够有效评估教练能力,为评估LLM的元认知能力提供了一个结构化的框架。通过比较LLM和人类在不同元认知指标上的表现,可以深入了解LLM的优势和局限性。
技术框架:研究采用混合方法,包括定量和定性分析。首先,选取了五种先进的LLM(GPT-4、Claude-3-Opus 3、Mistral Large、Llama 3和Gemini 1.5 Pro)以及人类参与者。然后,使用ICF模拟考试作为测试环境,评估LLM和人类在敏感性、概率预测准确性和偏差等元认知指标上的表现。最后,对结果进行统计分析,并结合定性分析,深入探讨LLM的元认知能力。
关键创新:本研究的关键创新在于将LLM的元认知能力评估置于一个具体的、涉及人类专业技能的场景中,即ICF模拟考试。这种方法能够更准确地评估LLM在实际应用中的元认知能力,并揭示其在不同情境下的适应性。此外,研究还对比了多种先进LLM的元认知表现,为未来的研究提供了参考。
关键设计:研究的关键设计包括:1) 使用ICF模拟考试作为评估工具,确保评估的有效性和可靠性;2) 选择多种先进LLM进行对比,以获得更全面的结果;3) 采用混合方法,结合定量和定性分析,深入探讨LLM的元认知能力;4) 关注LLM在不同情境下的适应性,特别是模糊情境下的表现。
📊 实验亮点
实验结果表明,LLM在所有元认知指标上均优于人类,尤其是在降低过度自信方面。与人类相比,LLM在概率预测准确性方面表现更佳。然而,LLM和人类在模糊情境下的适应性均较差,表明在复杂情境下,LLM的元认知能力仍有提升空间。
🎯 应用场景
该研究成果可应用于开发AI教练模拟器,辅助人类教练提升技能。此外,通过构建元认知模块,可以提升AI系统的自主性和直观性,使其在复杂决策场景中表现更佳。该研究对智能教育、人机协作等领域具有潜在的应用价值。
📄 摘要(原文)
This study investigates the metacognitive capabilities of Large Language Models relative to human metacognition in the context of the International Coaching Federation ICF mimicking exam, a situational judgment test related to coaching competencies. Using a mixed method approach, we assessed the metacognitive performance, including sensitivity, accuracy in probabilistic predictions, and bias, of human participants and five advanced LLMs (GPT-4, Claude-3-Opus 3, Mistral Large, Llama 3, and Gemini 1.5 Pro). The results indicate that LLMs outperformed humans across all metacognitive metrics, particularly in terms of reduced overconfidence, compared to humans. However, both LLMs and humans showed less adaptability in ambiguous scenarios, adhering closely to predefined decision frameworks. The study suggests that Generative AI can effectively engage in human-like metacognitive processing without conscious awareness. Implications of the study are discussed in relation to development of AI simulators that scaffold cognitive and metacognitive aspects of mastering coaching competencies. More broadly, implications of these results are discussed in relation to development of metacognitive modules that lead towards more autonomous and intuitive AI systems.