ChatGPT and Gemini participated in the Korean College Scholastic Ability Test -- Earth Science I

作者: Seok-Hyun Ga, Chun-Yen Chang

分类: cs.AI, cs.CL, cs.CY

发布日期: 2025-12-17

备注: 23 pages, 9 tables, 1 figure

💡 一句话要点

分析大型语言模型在韩国高考地球科学中的推理能力与局限性，为设计抗AI试题提供依据

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 科学推理 教育评估 抗AI问题 认知局限性

📋 核心要点

现有评估方法难以区分学生真实能力与AI生成答案，对学术诚信构成挑战。
通过分析LLM在地球科学试题中的表现，揭示其认知局限性，为设计抗AI试题提供思路。
实验表明LLM在非结构化输入下性能显著下降，并存在感知错误、计算-概念化差异等问题。

📝 摘要（中文）

生成式AI的快速发展正在给教育和评估带来创新性变革。随着学生使用AI完成作业的普及，对学术诚信和评估有效性的担忧日益增加。本研究利用2025年韩国高考（CSAT）的地球科学I部分，深入分析了包括GPT-4o、Gemini 2.5 Flash和Gemini 2.5 Pro在内的最先进的大型语言模型（LLM）的多模态科学推理能力和认知局限性。设计了三种实验条件（整页输入、单项输入和优化的多模态输入），以评估模型在不同数据结构下的性能。定量结果表明，由于分割和光学字符识别（OCR）失败，非结构化输入导致性能显著下降。即使在优化条件下，模型也表现出基本的推理缺陷。定性分析表明，“感知错误”占主导地位，突出了“感知-认知差距”，即模型未能解释示意图中的符号意义，尽管识别了视觉数据。此外，模型还表现出“计算-概念化差异”，成功地执行了计算，但未能应用潜在的科学概念，以及“过程幻觉”，即模型跳过视觉验证，转而使用看似合理但没有根据的背景知识。为了应对课程作业中未经授权使用AI的挑战，本研究为设计针对这些特定认知漏洞的“抗AI问题”提供了可操作的线索。通过利用AI的弱点，例如感知和认知之间的差距，教育工作者可以将真正的学生能力与AI生成的答案区分开来，从而确保评估的公平性。

🔬 方法详解

问题定义：本研究旨在解决大型语言模型（LLM）在科学推理方面的能力评估问题，特别是在教育评估场景下，如何区分学生真实能力与AI生成答案。现有方法的痛点在于，LLM在某些任务上表现出色，但其推理过程和认知机制尚不明确，容易被学生滥用，导致评估失效。

核心思路：核心思路是通过设计特定的实验，暴露LLM在科学推理方面的认知局限性，例如感知错误、计算-概念化差异和过程幻觉。通过分析这些弱点，为教育工作者提供设计“抗AI问题”的依据，从而更准确地评估学生的真实能力。

技术框架：研究采用实验方法，使用2025年韩国高考（CSAT）的地球科学I部分试题作为测试集。针对GPT-4o、Gemini 2.5 Flash和Gemini 2.5 Pro等LLM，设计了三种不同的输入条件：整页输入（模拟真实考试场景）、单项输入（消除分割和OCR错误的影响）和优化的多模态输入（提供更清晰的图像和文本信息）。通过定量分析和定性分析，评估模型在不同条件下的性能，并识别其认知缺陷。

关键创新：本研究的关键创新在于，它不仅评估了LLM在科学问题上的表现，更深入地分析了其推理过程中的认知局限性。通过识别“感知-认知差距”、“计算-概念化差异”和“过程幻觉”等问题，为设计更有效的评估方法提供了新的视角。

关键设计：实验设计的关键在于三种输入条件的设置，旨在逐步消除外部因素的干扰，从而更准确地评估LLM的内在推理能力。此外，定性分析方法也至关重要，通过人工分析模型生成的答案，识别其推理过程中的错误和偏差。

📊 实验亮点

实验结果表明，LLM在非结构化输入下性能显著下降，主要原因是分割和OCR错误。即使在优化条件下，模型也表现出推理缺陷，例如无法正确解释示意图中的符号意义，以及在计算正确的情况下无法应用相应的科学概念。这些发现为设计抗AI试题提供了具体的方向。

🎯 应用场景

该研究成果可应用于教育领域，帮助教师设计更具挑战性和区分度的试题，有效防止学生滥用AI作弊，维护学术诚信。同时，研究结果也能为AI辅助教育工具的开发提供指导，使其更好地服务于学生的学习和发展，而非简单地替代人类思考。

📄 摘要（原文）

The rapid development of Generative AI is bringing innovative changes to education and assessment. As the prevalence of students utilizing AI for assignments increases, concerns regarding academic integrity and the validity of assessments are growing. This study utilizes the Earth Science I section of the 2025 Korean College Scholastic Ability Test (CSAT) to deeply analyze the multimodal scientific reasoning capabilities and cognitive limitations of state-of-the-art Large Language Models (LLMs), including GPT-4o, Gemini 2.5 Flash, and Gemini 2.5 Pro. Three experimental conditions (full-page input, individual item input, and optimized multimodal input) were designed to evaluate model performance across different data structures. Quantitative results indicated that unstructured inputs led to significant performance degradation due to segmentation and Optical Character Recognition (OCR) failures. Even under optimized conditions, models exhibited fundamental reasoning flaws. Qualitative analysis revealed that "Perception Errors" were dominant, highlighting a "Perception-Cognition Gap" where models failed to interpret symbolic meanings in schematic diagrams despite recognizing visual data. Furthermore, models demonstrated a "Calculation-Conceptualization Discrepancy," successfully performing calculations while failing to apply the underlying scientific concepts, and "Process Hallucination," where models skipped visual verification in favor of plausible but unfounded background knowledge. Addressing the challenge of unauthorized AI use in coursework, this study provides actionable cues for designing "AI-resistant questions" that target these specific cognitive vulnerabilities. By exploiting AI's weaknesses, such as the gap between perception and cognition, educators can distinguish genuine student competency from AI-generated responses, thereby ensuring assessment fairness.

ChatGPT and Gemini participated in the Korean College Scholastic Ability Test -- Earth Science I

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理