EGSS: Entropy-guided Stepwise Scaling for Reliable Software Engineering

📄 arXiv: 2602.05242v1 📥 PDF

作者: Chenhui Mao, Yuanting Lei, Zhixiang Wei, Ming Liang, Zhixiang Wang, Jingxuan Xu, Dajun Chen, Wei Jiang, Yong Li

分类: cs.SE, cs.AI

发布日期: 2026-02-05


💡 一句话要点

提出熵引导的逐步扩展(EGSS)框架,提升软件工程任务性能并降低计算开销。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Agentic Test-Time Scaling 软件工程 代码生成 缺陷修复 熵引导 自适应搜索 测试套件增强

📋 核心要点

  1. 现有Agentic TTS方法计算开销大,缺乏选择最优解的可靠机制,限制了性能提升。
  2. EGSS框架通过熵引导的自适应搜索和测试套件增强,动态平衡效率和效果。
  3. 实验表明EGSS在SWE-Bench-Verified上提升了5-10%的性能,并降低了28%的token使用量。

📝 摘要(中文)

Agentic Test-Time Scaling (TTS) 在代码生成和缺陷修复等复杂软件工程任务中表现出色。然而,由于部署大型集成模型的高成本以及缺乏可靠的候选解决方案选择机制,其应用受到限制。为了解决这些问题,我们提出了一种新颖的TTS框架——熵引导的逐步扩展(EGSS)。EGSS通过熵引导的自适应搜索和鲁棒的测试套件增强,动态平衡效率和有效性。在SWE-Bench-Verified上的大量实验表明,EGSS始终将所有评估模型的性能提高5-10%。具体而言,它将Kimi-K2-Intruct的解决率从63.2%提高到72.2%,将GLM-4.6的解决率从65.8%提高到74.6%。此外,与GLM-4.6结合使用时,EGSS在开源大型语言模型中实现了新的state-of-the-art。除了这些准确性改进之外,与现有的TTS方法相比,EGSS还减少了超过28%的推理时间token使用量,从而同时提高了有效性和计算效率。

🔬 方法详解

问题定义:现有Agentic Test-Time Scaling (TTS) 方法在软件工程任务中面临计算开销过大的问题,尤其是在部署大型集成模型时。此外,缺乏一种可靠的机制来选择最佳候选解决方案,导致性能提升受限。这些问题阻碍了TTS方法在实际软件工程中的广泛应用。

核心思路:EGSS的核心思路是通过熵引导的自适应搜索来动态调整模型规模,并在测试时增强测试套件,从而在效率和效果之间取得平衡。熵在这里被用作不确定性的度量,用于指导模型在不同规模上的探索,避免不必要的计算开销。

技术框架:EGSS框架主要包含两个阶段:熵引导的自适应搜索和鲁棒的测试套件增强。在熵引导的自适应搜索阶段,框架首先使用较小的模型进行初步评估,然后根据结果的熵值决定是否需要扩展到更大的模型。如果熵值较高,表明模型对结果的不确定性较高,则会逐步扩展到更大的模型,以提高准确性。在鲁棒的测试套件增强阶段,框架会利用已有的测试用例生成新的测试用例,从而提高测试的覆盖率和有效性。

关键创新:EGSS的关键创新在于其熵引导的自适应搜索策略。与传统的TTS方法不同,EGSS不是盲目地使用大型集成模型,而是根据结果的不确定性动态调整模型规模。这种策略可以显著降低计算开销,同时保证性能。

关键设计:EGSS的关键设计包括熵的计算方式和模型扩展的策略。熵的计算方式需要能够准确反映模型结果的不确定性。模型扩展的策略需要能够有效地利用不同规模的模型,避免过度扩展。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EGSS在SWE-Bench-Verified数据集上进行了广泛的实验,结果表明EGSS始终将所有评估模型的性能提高5-10%。例如,Kimi-K2-Intruct的解决率从63.2%提高到72.2%,GLM-4.6的解决率从65.8%提高到74.6%。此外,与现有的TTS方法相比,EGSS还减少了超过28%的推理时间token使用量。

🎯 应用场景

EGSS框架可应用于代码生成、缺陷修复等多种软件工程任务。通过降低计算开销并提升性能,EGSS有望促进Agentic TTS方法在实际软件开发中的应用,提高软件质量和开发效率。未来,该方法可以进一步扩展到其他需要平衡效率和效果的AI应用场景。

📄 摘要(原文)

Agentic Test-Time Scaling (TTS) has delivered state-of-the-art (SOTA) performance on complex software engineering tasks such as code generation and bug fixing. However, its practical adoption remains limited due to significant computational overhead, primarily driven by two key challenges: (1) the high cost associated with deploying excessively large ensembles, and (2) the lack of a reliable mechanism for selecting the optimal candidate solution, ultimately constraining the performance gains that can be realized. To address these challenges, we propose Entropy-Guided Stepwise Scaling (EGSS), a novel TTS framework that dynamically balances efficiency and effectiveness through entropy-guided adaptive search and robust test-suite augmentation. Extensive experiments on SWE-Bench-Verified demonstrate that EGSS consistently boosts performance by 5-10% across all evaluated models. Specifically, it increases the resolved ratio of Kimi-K2-Intruct from 63.2% to 72.2%, and GLM-4.6 from 65.8% to 74.6%. Furthermore, when paired with GLM-4.6, EGSS achieves a new state-of-the-art among open-source large language models. In addition to these accuracy improvements, EGSS reduces inference-time token usage by over 28% compared to existing TTS methods, achieving simultaneous gains in both effectiveness and computational efficiency.