CombiGraph-Vis: A Curated Multimodal Olympiad Benchmark for Discrete Mathematical Reasoning
作者: Hamed Mahdavi, Pouria Mahdavinia, Alireza Farhadi, Pegah Mohammadipour, Samira Malek, Majid Daliri, Pedram Mohammadipour, Alireza Hashemi, Amir Khasahmadi, Vasant Honavar
分类: cs.AI
发布日期: 2025-10-31
备注: Code/data: https://github.com/ref-grader/ref-grader, https://huggingface.co/datasets/combviz/inoi
💡 一句话要点
提出基于智能体工作流的数学奥赛证明评分框架,提升评分一致性。
🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 数学奥赛 证明评分 大型语言模型 智能体工作流 自动评分
📋 核心要点
- 现有LLM在解决数学奥赛问题上取得进展,但对证明过程的评分能力仍有不足,尤其是在部分学分分配上。
- 提出基于智能体的工作流,通过提取参考答案并自动生成评分标准,实现更精细化的评分。
- 实验表明,该工作流在评分一致性和部分学分处理上优于现有方法,更接近人类评分标准。
📝 摘要(中文)
当前先进的大型语言模型(LLMs)在解决基于证明的奥赛问题方面取得了显著进展,甚至能够解决大部分IMO 2025问题。鉴于此,本文评估了这些模型对证明进行评分的能力,包括检测错误、判断错误严重程度以及给出公平分数。研究使用了90个Gemini 2.5 Pro生成的解决方案,并使用1-4的评分等级和详细的错误标注进行评分,以及MathArena的IMO/USAMO 2025解决方案集,评分等级为0-7。分析表明,模型可以可靠地标记不正确的解决方案,但在部分学分分配方面存在校准差距。为了解决这个问题,本文引入了智能体工作流,提取和分析参考解决方案,并自动推导出问题特定的评分标准,用于多步骤评分过程。本文实例化并比较了评分工作流的不同设计选择,并评估了它们的权衡。在标注语料库和MathArena上,提出的工作流在各项指标上实现了与人类评分更高的协议,并在部分学分处理方面更加一致。本文发布了所有代码、数据和提示/日志,以促进未来的研究。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在数学奥赛证明题评分中,尤其是在部分学分分配方面存在的校准差距问题。现有方法无法准确判断证明过程中的细微错误,导致评分不公平。
核心思路:论文的核心思路是引入智能体工作流,模拟人类专家评分的过程。该工作流首先提取和分析参考解决方案,然后自动推导出问题特定的评分标准(rubrics),最后基于这些标准对学生的解答进行多步骤评分。这种方法旨在提高评分的客观性和一致性。
技术框架:整体框架包含以下几个主要模块:1) 参考答案提取与分析模块:利用LLM提取并分析参考答案,理解题目的解题思路和关键步骤。2) 评分标准自动生成模块:基于参考答案的分析结果,自动生成详细的评分标准,包括每个步骤的得分点和错误类型。3) 多步骤评分模块:将学生的解答分解为多个步骤,并根据评分标准对每个步骤进行评分。4) 评分结果整合模块:将各个步骤的评分结果整合为最终得分。
关键创新:最重要的技术创新点在于自动生成问题特定的评分标准。与传统的固定评分标准相比,这种方法能够更好地适应不同题目的特点,更准确地评估学生的解题能力。此外,智能体工作流的设计也模拟了人类专家评分的思维过程,提高了评分的合理性。
关键设计:论文中涉及的关键设计包括:1) 如何设计提示(prompts)来引导LLM提取参考答案和生成评分标准。2) 如何定义评分标准的结构,例如,每个步骤的得分点和错误类型。3) 如何设计多步骤评分模块,例如,如何将学生的解答分解为多个步骤,以及如何对每个步骤进行评分。4) 如何选择合适的LLM作为智能体,并对其进行微调以提高其评分能力。论文还比较了不同设计选择的权衡,例如,不同提示策略对评分结果的影响。
🖼️ 关键图片
📊 实验亮点
实验结果表明,提出的智能体工作流在标注语料库和MathArena数据集上,与人类评分的协议更高,并在部分学分处理方面更加一致。这表明该方法能够更准确地评估学生的解题能力,并给出更公平的评分。具体性能数据和提升幅度在论文中进行了详细的展示。
🎯 应用场景
该研究成果可应用于在线教育平台、数学竞赛评分系统等领域,提高数学证明题评分的效率和公平性。通过自动生成评分标准,可以减轻人工评分的负担,并减少主观因素对评分结果的影响。此外,该方法还可以推广到其他需要细致评估的领域,例如代码评审、论文评审等。
📄 摘要(原文)
State-of-the-art (SOTA) LLMs have progressed from struggling on proof-based Olympiad problems to solving most of the IMO 2025 problems, with leading systems reportedly handling 5 of 6 problems. Given this progress, we assess how well these models can grade proofs: detecting errors, judging their severity, and assigning fair scores beyond binary correctness. We study proof-analysis capabilities using a corpus of 90 Gemini 2.5 Pro-generated solutions that we grade on a 1-4 scale with detailed error annotations, and on MathArena solution sets for IMO/USAMO 2025 scored on a 0-7 scale. Our analysis shows that models can reliably flag incorrect (including subtly incorrect) solutions but exhibit calibration gaps in how partial credit is assigned. To address this, we introduce agentic workflows that extract and analyze reference solutions and automatically derive problem-specific rubrics for a multi-step grading process. We instantiate and compare different design choices for the grading workflows, and evaluate their trade-offs. Across our annotated corpus and MathArena, our proposed workflows achieve higher agreement with human grades and more consistent handling of partial credit across metrics. We release all code, data, and prompts/logs to facilitate future research.