Schedule-and-Calibrate: Utility-Guided Multi-Task Reinforcement Learning for Code LLMs

作者: Yujia Chen, Yang Ye, Xiao Chu, Yuchi Ma, Cuiyun Gao

分类: cs.SE, cs.AI

发布日期: 2026-05-07

💡 一句话要点

提出ASTOR框架，通过效用引导的多任务强化学习提升代码大模型性能

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 代码大模型 多任务强化学习 策略优化 数据调度 KL正则化 模型对齐

📋 核心要点

现有MTRL方法缺乏对任务差异的感知，采用统一的训练策略和固定数据课程，导致多任务协同效应难以发挥，训练效率低下。
ASTOR框架引入“任务效用”概念，通过分层调度数据分配和自适应校准策略更新，实现对不同任务学习潜力和协同效应的动态管理。
实验证明ASTOR在四个代码任务上均优于单一任务专家模型及现有MTRL基线，显著提升了代码大模型在多任务场景下的泛化与执行能力。

📝 摘要（中文）

带有可验证奖励的强化学习（RL）在代码大模型（Code LLMs）的后训练阶段表现卓越。然而，部署多个特定任务的专家模型会随任务数量增加而导致成本激增，这促使研究者转向统一的多任务强化学习（MTRL）。现有MTRL方法通常对所有代码任务一视同仁，依赖固定的数据课程和共享的优化策略，限制了多任务训练的有效性。为此，本文提出了ASTOR框架，通过效用驱动的协调机制实现多任务代码强化学习。ASTOR包含两个核心模块：一是分层效用路由数据调度模块，负责分配训练预算并优先处理信息量大的提示词；二是自适应效用校准策略优化模块，通过动态调整各任务的KL正则化约束，匹配任务当前的训练状态。在四个代表性代码任务上的实验表明，ASTOR在单一模型上实现了全面性能提升，超越了最佳专家模型9.0%-9.5%，并比最强MTRL基线高出7.5%-12.8%。

🔬 方法详解

问题定义：论文旨在解决代码大模型在多任务强化学习中，由于任务间学习难度与进度差异导致的“负迁移”或“训练不平衡”问题，克服现有方法对所有任务采用统一优化策略的局限性。

核心思路：引入“任务效用（Task Utility）”作为核心信号，量化各任务的学习潜力和跨任务协同效应，从而实现训练资源（数据调度）与优化约束（策略更新）的动态分配。

技术框架：ASTOR包含两个耦合模块：分层效用路由数据调度模块（Hierarchical Utility-Routed Data Scheduling）负责根据效用分配训练预算；自适应效用校准策略优化模块（Adaptive Utility-Calibrated Policy Optimization）负责动态调整KL正则化系数。

关键创新：核心创新在于将“效用”作为闭环反馈信号，打破了传统MTRL中静态训练的范式，实现了从数据输入到策略更新的全链路效用驱动，使模型能够根据任务状态自适应调整学习重点。

关键设计：该方法通过分层机制优先选择高信息量提示词，并利用效用信号动态缩放各任务的KL散度惩罚项，确保模型在学习新任务的同时，有效维持对已学任务的性能稳定性，避免灾难性遗忘。

🖼️ 关键图片

📊 实验亮点

ASTOR在四个主流代码任务上表现优异，性能提升显著。实验结果显示，其在单一模型架构下，性能超越了针对特定任务训练的最佳专家模型9.0%-9.5%，且相比现有的最强多任务强化学习基线，性能提升幅度达到7.5%-12.8%，验证了效用驱动机制在多任务协同训练中的高效性。

🎯 应用场景

该研究适用于需要同时处理代码生成、补全、修复和解释等多种任务的工业级代码大模型部署场景。通过ASTOR框架，开发者可以利用单一模型高效处理多样化编程需求，显著降低模型维护成本，并提升模型在复杂代码工程任务中的准确性与鲁棒性。

📄 摘要（原文）

Reinforcement learning (RL) with verifiable rewards has proven effective at post-training LLMs for coding, yet deploying separate task-specific specialists incurs costs that scale with the number of tasks, motivating a unified multi-task RL (MTRL) approach. However, existing MTRL methods treat all coding tasks uniformly, relying on fixed data curricula under a shared optimization strategy, ultimately limiting the effectiveness of multi-task training. To address these limitations, we propose ASTOR, a multi-tASk code reinforcement learning framework via uTility-driven coORdination. Centered on task utility, a signal capturing each task learning potential and cross-task synergy, ASTOR comprises two coupled modules: 1) Hierarchical Utility-Routed Data Scheduling module hierarchically allocates training budget and prioritizes informative prompts, steering training toward the most valuable data and 2) Adaptive Utility-Calibrated Policy Optimization module dynamically scales per-task KL regularization, matching update constraints to each tasks current training state. Experiments on two widely-used LLMs across four representative coding tasks demonstrate that ASTOR consistently improves a single model across all tasks, outperforming the best task-specific specialist by 9.0%-9.5% and surpassing the strongest MTRL baseline by 7.5%-12.8%.

Schedule-and-Calibrate: Utility-Guided Multi-Task Reinforcement Learning for Code LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理