CodeSimpleQA: Scaling Factuality in Code Large Language Models

📄 arXiv: 2512.19424v1 📥 PDF

作者: Jian Yang, Wei Zhang, Yizhi Li, Shawn Guo, Haowen Wang, Aishan Liu, Ge Zhang, Zili Wang, Zhoujun Li, Xianglong Liu, Weifeng Lv

分类: cs.CL

发布日期: 2025-12-22


💡 一句话要点

CodeSimpleQA:提升代码大语言模型的事实性准确度

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 代码大语言模型 事实性 基准测试 指令学习 强化学习 监督微调 代码生成 编程知识

📋 核心要点

  1. 现有代码基准测试主要关注代码执行的正确性,忽略了编程知识的事实准确性,导致LLM在生成代码相关问题的事实性回答方面存在挑战。
  2. 论文提出CodeSimpleQA基准测试和CodeSimpleQA-Instruct指令语料库,并结合监督微调和强化学习,以提升代码LLM的事实性准确度。
  3. 实验结果表明,即使是最先进的LLM在代码事实性方面也存在困难,而论文提出的框架能够显著提高模型的事实性准确度。

📝 摘要(中文)

大型语言模型(LLM)在代码生成方面取得了显著进展,在从自然语言指令合成代码片段方面表现出令人印象深刻的能力。然而,一个关键挑战仍然存在,即确保LLM生成关于编程概念、技术实现等方面的事实准确的响应。以往大多数代码相关基准侧重于代码执行的正确性,而忽略了编程知识的事实准确性。为了解决这一差距,我们提出了CodeSimpleQA,这是一个全面的双语基准,旨在评估代码LLM在回答代码相关问题时的事实准确性,其中包含精心策划的英语和中文问答对,涵盖不同的编程语言和主要的计算机科学领域。此外,我们创建了CodeSimpleQA-Instruct,一个包含6600万个样本的大规模指令语料库,并开发了一个结合监督微调和强化学习的后训练框架。我们对各种LLM的全面评估表明,即使是最先进的LLM也在代码事实性方面存在困难。我们提出的框架证明了对基础模型的显著改进,强调了在开发可靠的代码LLM中,事实性感知对齐的关键重要性。

🔬 方法详解

问题定义:论文旨在解决代码大语言模型(LLM)在生成代码相关问题答案时,缺乏事实准确性的问题。现有的代码相关基准测试主要关注代码执行的正确性,而忽略了LLM对编程概念、技术实现等知识的掌握程度,导致LLM可能生成不准确甚至错误的信息。

核心思路:论文的核心思路是通过构建一个高质量的、包含大量事实性问答对的基准测试集(CodeSimpleQA)和一个大规模的指令语料库(CodeSimpleQA-Instruct),来评估和提升代码LLM的事实性准确度。同时,采用监督微调和强化学习相结合的后训练框架,使模型能够更好地理解和生成事实准确的答案。

技术框架:整体框架包含三个主要部分:1) 构建CodeSimpleQA基准测试集,包含英语和中文的问答对,覆盖多种编程语言和计算机科学领域;2) 构建CodeSimpleQA-Instruct指令语料库,包含6600万个样本;3) 开发后训练框架,该框架首先使用CodeSimpleQA-Instruct进行监督微调,然后使用强化学习进一步提升模型的事实性准确度。

关键创新:论文的关键创新在于:1) 提出了CodeSimpleQA基准测试集,填补了代码LLM事实性评估的空白;2) 构建了大规模的CodeSimpleQA-Instruct指令语料库,为模型训练提供了充足的数据;3) 提出了结合监督微调和强化学习的后训练框架,能够有效提升模型的事实性准确度。与现有方法相比,该方法更加关注模型对编程知识的掌握程度,并能够通过指令学习和强化学习来提升模型的生成质量。

关键设计:在构建CodeSimpleQA基准测试集时,论文精心设计了问答对,确保覆盖不同的编程语言和计算机科学领域,并保证答案的事实准确性。在后训练框架中,监督微调使用交叉熵损失函数,强化学习使用奖励模型来评估生成答案的事实性,并使用策略梯度算法来优化模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验证明,即使是最先进的LLM在CodeSimpleQA基准测试集上也表现出较低的事实性准确度。而论文提出的后训练框架能够显著提高模型的事实性准确度,在多个指标上取得了明显的提升,表明了该框架的有效性。具体的性能数据和提升幅度在论文中有详细展示。

🎯 应用场景

该研究成果可应用于提升代码大语言模型的可靠性和实用性,例如在智能编程助手、代码自动生成、编程教育等领域。通过提高模型的事实性准确度,可以减少错误信息的产生,提高开发效率,并为用户提供更可靠的编程支持。未来,该研究可以进一步扩展到更复杂的代码场景和更广泛的编程知识领域。

📄 摘要(原文)

Large language models (LLMs) have made significant strides in code generation, achieving impressive capabilities in synthesizing code snippets from natural language instructions. However, a critical challenge remains in ensuring LLMs generate factually accurate responses about programming concepts, technical implementations, etc. Most previous code-related benchmarks focus on code execution correctness, overlooking the factual accuracy of programming knowledge. To address this gap, we present CodeSimpleQA, a comprehensive bilingual benchmark designed to evaluate the factual accuracy of code LLMs in answering code-related questions, which contains carefully curated question-answer pairs in both English and Chinese, covering diverse programming languages and major computer science domains. Further, we create CodeSimpleQA-Instruct, a large-scale instruction corpus with 66M samples, and develop a post-training framework combining supervised fine-tuning and reinforcement learning. Our comprehensive evaluation of diverse LLMs reveals that even frontier LLMs struggle with code factuality. Our proposed framework demonstrates substantial improvements over the base model, underscoring the critical importance of factuality-aware alignment in developing reliable code LLMs.