EDCO: Dynamic Curriculum Orchestration for Domain-specific Large Language Model Fine-tuning

作者: Jing-Cheng Pang, Liu Sun, Chang Zhou, Xian Tang, Haichuan Ma, Kun Jiang, Jianlong Wang, Kai Zhang, Sijie Wu, Haoran Cai, Chenwei Wu, Xubin Li, Xin Chen

分类: cs.LG

发布日期: 2026-01-07

💡 一句话要点

EDCO：动态课程编排微调领域大语言模型，提升学习效率

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型微调 动态课程学习 推理熵 领域特定模型 高效熵估计

📋 核心要点

现有领域大语言模型微调方法依赖静态课程，无法适应模型在训练过程中不断变化的需求。
EDCO通过动态课程编排，优先选择具有高推理熵的样本，以提升模型的长期推理能力。
实验表明，EDCO在多个领域优于传统课程策略，并显著降低了熵估计的计算成本。

📝 摘要（中文）

领域特定的大语言模型（LLMs）通过在专业数据集上微调预训练的通用LLM而显著提升了应用AI的能力。LLM微调中常用的策略是课程学习，它基于难度等指标对训练样本进行预排序，从而提高学习效率，优于随机抽样策略。然而，现有的大多数LLM微调方法依赖于静态课程，这种课程在训练前设计，缺乏对模型在微调过程中不断变化的需求的适应性。为了解决这个问题，我们提出了EDCO，这是一个基于两个关键概念的新框架：推理熵和动态课程编排。受到最近研究的启发，即保持高答案熵有利于长期推理能力的提升，EDCO优先选择具有高推理熵的样本，并在持续调整的课程中使用。EDCO集成了三个核心组件：一个使用前缀token来近似完整序列熵的高效熵估计器，一个选择具有最高推理熵的数据点的基于熵的课程生成器，以及一个在选定的课程上优化模型的LLM训练器。在通信、医学和法律领域的综合实验表明，在监督学习和强化学习设置下，EDCO优于用于微调Qwen3-4B和Llama3.2-3B模型的传统课程策略。此外，所提出的高效熵估计将计算时间减少了83.5%，同时保持了高精度。

🔬 方法详解

问题定义：论文旨在解决领域特定大语言模型微调过程中，现有静态课程学习方法无法有效适应模型学习状态，导致训练效率和模型性能受限的问题。现有方法无法根据模型在训练过程中的实际学习情况动态调整训练样本的难度和顺序，从而影响模型的收敛速度和最终性能。

核心思路：论文的核心思路是利用推理熵作为衡量样本难度的指标，并基于此构建动态课程。通过持续评估模型在每个样本上的推理熵，并优先选择具有高推理熵的样本进行训练，从而引导模型关注更具挑战性的样本，提升学习效率和泛化能力。这种动态调整的课程能够更好地适应模型在训练过程中的学习状态，实现更有效的微调。

技术框架：EDCO框架包含三个主要模块：高效熵估计器、基于熵的课程生成器和LLM训练器。首先，高效熵估计器利用前缀token近似计算完整序列的熵，降低计算复杂度。然后，基于熵的课程生成器根据熵估计器的结果，选择具有最高推理熵的数据点。最后，LLM训练器在选定的课程上优化模型参数。整个流程形成一个闭环，不断评估和调整训练课程，以优化模型性能。

关键创新：EDCO的关键创新在于动态课程编排和高效熵估计。动态课程编排能够根据模型学习状态自适应地调整训练样本的难度，而高效熵估计则显著降低了计算成本，使其能够应用于大规模数据集和模型。与静态课程学习方法相比，EDCO能够更有效地利用训练数据，提升模型性能。

关键设计：EDCO的关键设计包括：1) 使用前缀token近似计算完整序列熵，以降低计算复杂度；2) 基于推理熵选择训练样本，引导模型关注更具挑战性的样本；3) 动态调整课程，使其能够适应模型在训练过程中的学习状态；4) 损失函数采用标准的交叉熵损失或强化学习中的奖励函数，具体取决于微调任务的类型。

📊 实验亮点

实验结果表明，EDCO在通信、医学和法律领域，使用Qwen3-4B和Llama3.2-3B模型进行微调时，优于传统的课程学习策略。此外，所提出的高效熵估计方法将计算时间减少了83.5%，同时保持了较高的精度，显著提升了训练效率。

🎯 应用场景

EDCO框架可广泛应用于各种领域特定的大语言模型微调任务，例如医疗、法律、金融等。通过动态调整训练课程，EDCO能够提升模型在特定领域的性能和泛化能力，从而提高模型的实用价值。此外，EDCO的高效熵估计方法也为其他需要计算序列熵的任务提供了新的思路。

📄 摘要（原文）

Domain-specific large language models (LLMs), typically developed by fine-tuning a pre-trained general-purpose LLM on specialized datasets, represent a significant advancement in applied AI. A common strategy in LLM fine-tuning is curriculum learning, which pre-orders training samples based on metrics like difficulty to improve learning efficiency compared to a random sampling strategy. However, most existing methods for LLM fine-tuning rely on a static curriculum, designed prior to training, which lacks adaptability to the model's evolving needs during fine-tuning. To address this, we propose EDCO, a novel framework based on two key concepts: inference entropy and dynamic curriculum orchestration. Inspired by recent findings that maintaining high answer entropy benefits long-term reasoning gains, EDCO prioritizes samples with high inference entropy in a continuously adapted curriculum. EDCO integrates three core components: an efficient entropy estimator that uses prefix tokens to approximate full-sequence entropy, an entropy-based curriculum generator that selects data points with the highest inference entropy, and an LLM trainer that optimizes the model on the selected curriculum. Comprehensive experiments in communication, medicine and law domains, EDCO outperforms traditional curriculum strategies for fine-tuning Qwen3-4B and Llama3.2-3B models under supervised and reinforcement learning settings. Furthermore, the proposed efficient entropy estimation reduces computational time by 83.5% while maintaining high accuracy.

EDCO: Dynamic Curriculum Orchestration for Domain-specific Large Language Model Fine-tuning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册