ScaleBox: Enabling High-Fidelity and Scalable Code Verification for Large Language Models

📄 arXiv: 2604.27467v1 📥 PDF

作者: Jiasheng Zheng, Xin Zheng, Boxi Cao, Pengbo Wang, Zhengzhao Ma, Qiming Zhu, Jiazhen Jiang, Yaojie Lu, Hongyu Lin, Xianpei Han, Le Sun

分类: cs.SE, cs.CL

发布日期: 2026-04-30

备注: Accepted to ACL 2026 Demo. Our project is available at https://github.com/icip-cas/ScaleBox


💡 一句话要点

提出ScaleBox以解决大规模代码验证的准确性与效率问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 代码验证 大型语言模型 高并发处理 自动化特判 并行执行 评估套件 训练稳定性

📋 核心要点

  1. 现有代码验证系统在高并发工作负载下无法提供准确的验证和效率,限制了大型语言模型的训练效果。
  2. ScaleBox通过自动化特判生成、细粒度并行执行和配置驱动的评估套件,解决了现有系统的不足之处。
  3. 实验结果显示,ScaleBox在LiveCodeBench上显著提升了性能和训练稳定性,超越了传统的启发式匹配基线。

📝 摘要(中文)

代码沙箱已成为提升大型语言模型编码能力的重要基础设施,为强化学习训练和评估提供可验证的反馈。然而,现有系统在高并发工作负载下的验证准确性和效率不足。本文提出ScaleBox,一个高保真且可扩展的系统,旨在解决这些局限性。ScaleBox引入了自动化的特判生成与管理、跨测试用例的细粒度并行执行及无缝多节点协调,以及可配置的评估套件以实现可重复的基准测试。实验表明,ScaleBox显著提升了代码验证的准确性和效率,并在LiveCodeBench上的表现和训练稳定性方面显著超越了启发式匹配基线。通过提供可靠且高吞吐量的基础设施,ScaleBox促进了大规模代码训练的更有效研究与开发。

🔬 方法详解

问题定义:本文旨在解决现有代码验证系统在高并发场景下的准确性和效率不足的问题。现有方法在处理大量并发请求时,常常无法提供可靠的验证反馈,影响了大型语言模型的训练效果。

核心思路:ScaleBox的核心思路是通过引入自动化的特判生成与管理、细粒度的并行执行以及多节点协调,来提升代码验证的准确性和效率。这种设计旨在优化资源利用,减少验证时间,提高系统的整体性能。

技术框架:ScaleBox的整体架构包括多个主要模块:自动特判生成模块、并行执行管理模块、多节点协调模块和评估套件。每个模块负责特定的功能,协同工作以实现高效的代码验证。

关键创新:ScaleBox的主要创新在于其自动化特判生成与管理机制,以及细粒度的并行执行策略。这些创新使得系统能够在高并发情况下保持高准确性和高效率,显著区别于传统的验证方法。

关键设计:在ScaleBox中,特判生成采用了自动化算法,确保了特判的多样性和准确性;并行执行模块则通过细粒度的任务划分,优化了资源分配。此外,评估套件的配置驱动设计确保了基准测试的可重复性和可靠性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在实验中,ScaleBox在LiveCodeBench上的性能显著提升,训练稳定性也得到了显著改善。与启发式匹配基线相比,ScaleBox的验证准确性和效率均有显著提高,具体提升幅度未知,表明其在高并发场景下的优越性。

🎯 应用场景

ScaleBox的研究成果在多个领域具有广泛的应用潜力,尤其是在大型语言模型的训练和评估中。其高效的代码验证机制可以帮助开发者更快地迭代和优化代码,提升软件开发的效率。此外,ScaleBox的设计理念也可推广至其他需要高并发处理和验证的系统中,具有重要的实际价值和未来影响。

📄 摘要(原文)

Code sandboxes have emerged as a critical infrastructure for advancing the coding capabilities of large language models, providing verifiable feedback for both RL training and evaluation. However, existing systems fail to provide accurate verification and efficiency under high-concurrency workloads. We present ScaleBox, a high-fidelity and scalable system designed to address these limitations in large-scale code training. ScaleBox introduces automated special-judge generation and management, fine-grained parallel execution across test cases with seamless multi-node coordination, and a configuration-driven evaluation suite for reproducible benchmarking. A series of experiments demonstrates that ScaleBox significantly enhances code verification accuracy and efficiency. Our further RLVR experiments show that ScaleBox substantially improves both performance on LiveCodeBench and training stability, significantly outperforming heuristic-matching baselines. By providing a reliable and high-throughput infrastructure, ScaleBox facilitates more effective research and development in large-scale code training.