Beyond Output Correctness: Benchmarking and Evaluating Large Language Model Reasoning in Coding Tasks
作者: Yuangang Li, Justin Tian Jin Chen, Ethan Yu, David Hong, Iftekhar Ahmed
分类: cs.SE, cs.AI, cs.LG
发布日期: 2026-04-14
🔗 代码/项目: GITHUB
💡 一句话要点
CodeRQ-Bench:用于评估LLM在代码任务中推理质量的基准测试与VERA评估器
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 代码推理 基准测试 评估器 证据验证
📋 核心要点
- 现有推理评估器不适用于代码任务,且现有基准侧重于代码生成,忽略了代码摘要和分类等任务。
- 提出VERA评估器,通过证据验证和歧义感知的分数校正,提升LLM在代码任务推理质量的评估准确性。
- 实验表明,VERA在CodeRQ-Bench上显著优于现有基线,AUCROC提升高达0.26,AUPRC提升高达0.21。
📝 摘要(中文)
大型语言模型(LLM)越来越多地依赖显式推理来解决编码任务,然而,评估这种推理的质量仍然具有挑战性。现有的推理评估器并非为编码而设计,并且当前的基准测试主要侧重于代码生成,而对其他编码任务的探索不足。我们推出了CodeRQ-Bench,这是第一个用于评估LLM在三种编码任务类别(生成、摘要和分类)中推理质量的基准测试。通过使用这个基准测试,我们分析了来自现有评估器的1,069个不匹配案例,识别出五个常见的局限性,并为编码任务中的推理评估推导出四个设计见解。在这些见解的指导下,我们提出了VERA,一种两阶段评估器,它结合了基于证据的验证和感知歧义的分数校正。在CodeRQ-Bench上的实验表明,VERA在四个数据集上始终优于强大的基线,将AUCROC提高了高达0.26,AUPRC提高了高达0.21。我们在https://github.com/MrLYG/CodeRQ-Bench发布了CodeRQ-Bench,以支持未来的研究。
🔬 方法详解
问题定义:现有的大型语言模型在解决编码任务时,虽然依赖于显式的推理过程,但是如何有效地评估这些推理过程的质量仍然是一个难题。现有的推理评估器主要针对通用领域设计,缺乏对代码相关任务的针对性优化。此外,现有的代码基准测试主要集中在代码生成任务上,而忽略了代码摘要、代码分类等其他重要的编码任务,导致对LLM在编码任务中的推理能力评估不够全面。
核心思路:论文的核心思路是构建一个专门用于评估LLM在编码任务中推理质量的基准测试集CodeRQ-Bench,并基于此设计一个更加有效的评估器VERA。VERA的核心思想是结合证据验证和歧义感知的分数校正,从而更准确地评估LLM的推理过程。通过证据验证,可以确保LLM的推理过程有实际的代码依据;通过歧义感知的分数校正,可以减少由于评估标准不明确或存在歧义而导致的评估误差。
技术框架:VERA评估器是一个两阶段的评估框架。第一阶段是证据验证阶段,该阶段的目标是从LLM的推理过程中提取关键证据,并验证这些证据是否与给定的代码任务相关。第二阶段是歧义感知的分数校正阶段,该阶段的目标是根据评估标准中的潜在歧义,对LLM的推理得分进行校正,从而提高评估的准确性。整个框架以CodeRQ-Bench作为评估基准。
关键创新:论文的关键创新在于以下几个方面:1) 构建了首个用于评估LLM在多种编码任务中推理质量的基准测试集CodeRQ-Bench。2) 提出了VERA评估器,该评估器结合了证据验证和歧义感知的分数校正,能够更准确地评估LLM的推理过程。3) 通过对现有评估器的错误案例进行分析,总结出了编码任务推理评估的四个设计原则。与现有方法相比,VERA更加关注推理过程的质量,并且能够更好地处理评估标准中的歧义。
关键设计:在证据验证阶段,论文采用了一种基于规则的方法来提取关键证据,并使用预训练的语言模型来验证这些证据的相关性。在歧义感知的分数校正阶段,论文使用了一种基于贝叶斯推断的方法来估计评估标准中的歧义,并根据这些歧义对LLM的推理得分进行校正。具体的参数设置和网络结构等技术细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,VERA评估器在CodeRQ-Bench基准测试上显著优于现有的基线方法。具体来说,VERA在四个数据集上都取得了最佳性能,AUCROC指标平均提升了0.26,AUPRC指标平均提升了0.21。这些结果表明,VERA能够更准确地评估LLM在编码任务中的推理质量。
🎯 应用场景
该研究成果可应用于提升代码生成、代码摘要和代码分类等任务中大型语言模型的性能。通过更准确地评估LLM的推理质量,可以指导模型训练和优化,从而提高代码相关任务的自动化水平,并辅助软件开发人员进行代码编写、理解和维护。此外,该研究也为其他领域的推理评估提供了借鉴。
📄 摘要(原文)
Large language models (LLMs) increasingly rely on explicit reasoning to solve coding tasks, yet evaluating the quality of this reasoning remains challenging. Existing reasoning evaluators are not designed for coding, and current benchmarks focus primarily on code generation, leaving other coding tasks largely unexplored. We introduce CodeRQ-Bench, the first benchmark for evaluating LLM reasoning quality across three coding task categories: generation, summarization, and classification. Using this benchmark, we analyze 1,069 mismatch cases from existing evaluators, identify five recurring limitations, and derive four design insights for reasoning evaluation in coding tasks. Guided by these insights, we propose VERA, a two-stage evaluator that combines evidence-grounded verification with ambiguity-aware score correction. Experiments on CodeRQ-Bench show that VERA consistently outperforms strong baselines across four datasets, improving AUCROC by up to 0.26 and AUPRC by up to 0.21. We release CodeRQ-Bench at https://github.com/MrLYG/CodeRQ-Bench, supporting future investigations.