Schedule-and-Calibrate: Utility-Guided Multi-Task Reinforcement Learning for Code LLMs
作者: Yujia Chen, Yang Ye, Xiao Chu, Yuchi Ma, Cuiyun Gao
分类: cs.SE, cs.AI
发布日期: 2026-05-07
💡 一句话要点
提出ASTOR框架,通过效用引导的多任务强化学习提升代码大模型性能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 代码大模型 多任务强化学习 策略优化 数据调度 KL正则化 模型对齐
📋 核心要点
- 现有MTRL方法缺乏对任务差异的感知,采用统一的训练策略和固定数据课程,导致多任务协同效应难以发挥,训练效率低下。
- ASTOR框架引入“任务效用”概念,通过分层调度数据分配和自适应校准策略更新,实现对不同任务学习潜力和协同效应的动态管理。
- 实验证明ASTOR在四个代码任务上均优于单一任务专家模型及现有MTRL基线,显著提升了代码大模型在多任务场景下的泛化与执行能力。
📝 摘要(中文)
带有可验证奖励的强化学习(RL)在代码大模型(Code LLMs)的后训练阶段表现卓越。然而,部署多个特定任务的专家模型会随任务数量增加而导致成本激增,这促使研究者转向统一的多任务强化学习(MTRL)。现有MTRL方法通常对所有代码任务一视同仁,依赖固定的数据课程和共享的优化策略,限制了多任务训练的有效性。为此,本文提出了ASTOR框架,通过效用驱动的协调机制实现多任务代码强化学习。ASTOR包含两个核心模块:一是分层效用路由数据调度模块,负责分配训练预算并优先处理信息量大的提示词;二是自适应效用校准策略优化模块,通过动态调整各任务的KL正则化约束,匹配任务当前的训练状态。在四个代表性代码任务上的实验表明,ASTOR在单一模型上实现了全面性能提升,超越了最佳专家模型9.0%-9.5%,并比最强MTRL基线高出7.5%-12.8%。
🔬 方法详解
问题定义:论文旨在解决代码大模型在多任务强化学习中,由于任务间学习难度与进度差异导致的“负迁移”或“训练不平衡”问题,克服现有方法对所有任务采用统一优化策略的局限性。
核心思路:引入“任务效用(Task Utility)”作为核心信号,量化各任务的学习潜力和跨任务协同效应,从而实现训练资源(数据调度)与优化约束(策略更新)的动态分配。
技术框架:ASTOR包含两个耦合模块:分层效用路由数据调度模块(Hierarchical Utility-Routed Data Scheduling)负责根据效用分配训练预算;自适应效用校准策略优化模块(Adaptive Utility-Calibrated Policy Optimization)负责动态调整KL正则化系数。
关键创新:核心创新在于将“效用”作为闭环反馈信号,打破了传统MTRL中静态训练的范式,实现了从数据输入到策略更新的全链路效用驱动,使模型能够根据任务状态自适应调整学习重点。
关键设计:该方法通过分层机制优先选择高信息量提示词,并利用效用信号动态缩放各任务的KL散度惩罚项,确保模型在学习新任务的同时,有效维持对已学任务的性能稳定性,避免灾难性遗忘。
🖼️ 关键图片
📊 实验亮点
ASTOR在四个主流代码任务上表现优异,性能提升显著。实验结果显示,其在单一模型架构下,性能超越了针对特定任务训练的最佳专家模型9.0%-9.5%,且相比现有的最强多任务强化学习基线,性能提升幅度达到7.5%-12.8%,验证了效用驱动机制在多任务协同训练中的高效性。
🎯 应用场景
该研究适用于需要同时处理代码生成、补全、修复和解释等多种任务的工业级代码大模型部署场景。通过ASTOR框架,开发者可以利用单一模型高效处理多样化编程需求,显著降低模型维护成本,并提升模型在复杂代码工程任务中的准确性与鲁棒性。
📄 摘要(原文)
Reinforcement learning (RL) with verifiable rewards has proven effective at post-training LLMs for coding, yet deploying separate task-specific specialists incurs costs that scale with the number of tasks, motivating a unified multi-task RL (MTRL) approach. However, existing MTRL methods treat all coding tasks uniformly, relying on fixed data curricula under a shared optimization strategy, ultimately limiting the effectiveness of multi-task training. To address these limitations, we propose ASTOR, a multi-tASk code reinforcement learning framework via uTility-driven coORdination. Centered on task utility, a signal capturing each task learning potential and cross-task synergy, ASTOR comprises two coupled modules: 1) Hierarchical Utility-Routed Data Scheduling module hierarchically allocates training budget and prioritizes informative prompts, steering training toward the most valuable data and 2) Adaptive Utility-Calibrated Policy Optimization module dynamically scales per-task KL regularization, matching update constraints to each tasks current training state. Experiments on two widely-used LLMs across four representative coding tasks demonstrate that ASTOR consistently improves a single model across all tasks, outperforming the best task-specific specialist by 9.0%-9.5% and surpassing the strongest MTRL baseline by 7.5%-12.8%.