How Far Are We? Systematic Evaluation of LLMs vs. Human Experts in Mathematical Contest in Modeling
作者: Yuhang Liu, Heyan Huang, Yizhe Yang, Hongyan Zhao, Zhizhuo Zeng, Yang Gao
分类: cs.CL
发布日期: 2026-04-07
💡 一句话要点
提出面向数学建模竞赛的LLM阶段性评估框架,揭示模型在执行层面的不足
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 数学建模 阶段性评估 问题解决能力 理解-执行差距
📋 核心要点
- 现有LLM在推理基准上表现良好,但缺乏对端到端实际问题解决能力的系统评估。
- 提出一种面向问题、阶段性的评估框架,利用专家验证标准评估LLM在数学建模各阶段的性能。
- 实验表明LLM在问题识别阶段表现良好,但在模型求解、代码实现等执行阶段存在明显不足。
📝 摘要(中文)
大型语言模型(LLMs)在推理基准测试中表现出色,但其解决需要端到端工作流程的实际问题的能力仍不清楚。数学建模竞赛为评估这种端到端问题解决能力提供了一个严格的测试平台。本文提出了一种面向问题、阶段性的评估框架,该框架使用专家验证的标准来评估LLM在建模各个阶段的性能。通过比较自动评分与中国研究生数学建模竞赛问题的独立人类专家判断,验证了该框架的可靠性,证明其与现有评估方案相比具有更强的对齐性。使用该框架,揭示了最先进的LLM中存在的理解-执行差距:虽然它们在问题识别和公式化等早期阶段表现良好,但在模型求解、代码实现和结果分析等面向执行的阶段表现出持续的不足。即使增加模型规模,这些差距仍然存在。进一步将这些失败归因于规范不足、缺少验证和缺乏确认,错误在各个阶段传播而没有得到纠正。研究结果表明,弥合这一差距需要超越模型缩放的方法,为将LLM应用于复杂的实际问题解决提供了见解。
🔬 方法详解
问题定义:论文旨在解决如何系统性地评估大型语言模型(LLMs)在解决需要端到端工作流程的复杂实际问题(以数学建模竞赛为例)中的能力。现有方法通常侧重于整体性能评估,忽略了对问题解决过程中各个阶段的细致分析,无法有效诊断LLM的不足之处。
核心思路:论文的核心思路是将复杂的数学建模问题分解为多个阶段,并针对每个阶段设计专家验证的评估标准。通过对LLM在每个阶段的表现进行评估,可以更清晰地识别LLM在问题解决过程中的薄弱环节,从而为改进LLM的实际应用能力提供更有针对性的指导。
技术框架:该评估框架包含以下主要阶段:1) 问题识别与理解;2) 模型构建与公式化;3) 模型求解;4) 代码实现;5) 结果分析与验证。每个阶段都定义了明确的评估标准,并邀请领域专家进行验证。该框架还支持自动评分,并通过与专家评分的对比来验证自动评分的可靠性。
关键创新:该论文的关键创新在于提出了一个面向问题、阶段性的评估框架,能够细粒度地评估LLM在解决复杂实际问题中的能力。与传统的整体性能评估方法相比,该框架能够更准确地识别LLM在问题解决过程中的不足之处,为改进LLM的实际应用能力提供了更有效的手段。
关键设计:该框架的关键设计包括:1) 针对每个阶段设计了明确的评估标准,确保评估的客观性和可重复性;2) 邀请领域专家对评估标准进行验证,确保评估的有效性;3) 设计了自动评分机制,提高了评估的效率;4) 通过与专家评分的对比,验证了自动评分的可靠性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,提出的评估框架能够有效识别LLM在数学建模问题解决过程中的不足。具体而言,LLM在问题识别和公式化等早期阶段表现良好,但在模型求解、代码实现和结果分析等执行阶段表现出明显的不足。即使增加模型规模,这些差距仍然存在,表明仅仅依靠模型缩放无法有效解决LLM在实际应用中的问题。
🎯 应用场景
该研究成果可应用于评估和改进LLM在各种复杂实际问题中的应用能力,例如科学研究、工程设计、商业决策等。通过识别LLM在特定领域的不足,可以更有针对性地开发新的算法和技术,提高LLM在实际应用中的效率和可靠性,具有重要的实际价值和广泛的应用前景。
📄 摘要(原文)
Large language models (LLMs) have achieved strong performance on reasoning benchmarks, yet their ability to solve real-world problems requiring end-to-end workflows remains unclear. Mathematical modeling competitions provide a stringent testbed for evaluating such end-to-end problem-solving capability. We propose a problem-oriented, stage-wise evaluation framework that assesses LLM performance across modeling stages using expert-verified criteria. We validate the framework's reliability by comparing automatic scores with independent human expert judgments on problems from the China Postgraduate Mathematical Contest in Modeling, demonstrating substantially stronger alignment than existing evaluation schemes. Using this framework, we reveal a comprehension-execution gap in state-of-the-art LLMs: while they perform well in early stages such as problem identification and formulation, they exhibit persistent deficiencies in execution-oriented stages including model solving, code implementation, and result analysis. These gaps persist even with increased model scale. We further trace these failures to insufficient specification, missing verification, and lack of validation, with errors propagating across stages without correction. Our findings suggest that bridging this gap requires approaches beyond model scaling, offering insights for applying LLMs to complex real-world problem solving.