Complexity-aware fine-tuning

📄 arXiv: 2506.21220v2 📥 PDF

作者: Andrey Goncharov, Daniil Vyazhev, Petr Sychev, Edvard Khalafyan, Alexey Zaytsev

分类: cs.LG, cs.CL

发布日期: 2025-06-26 (更新: 2025-10-11)


💡 一句话要点

提出复杂性感知微调方法以提升大语言模型性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 复杂性感知 微调方法 大语言模型 蒸馏训练 数据效率 自然语言处理 监督微调

📋 核心要点

  1. 现有的微调方法在处理复杂数据时效率低下,通常需要大量数据和计算资源。
  2. 本文提出了一种复杂性感知的微调方法,仅对复杂数据进行推理,从而提高微调效率。
  3. 实验结果表明,该方法在准确率和数据使用效率上均显著优于传统的SFT和蒸馏方法。

📝 摘要(中文)

通用的大语言模型(LLMs)通常通过监督微调(SFT)来提升特定领域的性能。通过对更大模型的思维链进行蒸馏,可以获得更好的结果,但代价是需要大量昂贵的调用和数据。本文提出了一种高效的微调新方案,仅对通过熵识别的复杂数据进行推理。具体而言,我们在两个小型开放模型(约3B参数)上,通过单个标记答案熵将训练数据分为复杂性类别,利用SFT和蒸馏对大语言模型进行微调,结果显示我们的管道显著优于标准SFT方法(平均准确率0.58对比0.45),并且在使用81%更少数据的情况下超越了蒸馏方法(平均准确率0.58对比0.56)。

🔬 方法详解

问题定义:本文旨在解决现有微调方法在处理复杂数据时的低效率问题,传统方法往往需要大量数据和计算资源,导致成本高昂。

核心思路:论文提出的核心思路是通过熵来识别数据的复杂性,仅对复杂数据进行推理,从而减少不必要的计算和数据使用,提高微调效率。

技术框架:整体架构包括数据复杂性分类、监督微调(SFT)和蒸馏三个主要模块。首先,通过单个标记答案熵将训练数据分为不同复杂性类别,然后对复杂数据进行微调。

关键创新:最重要的技术创新在于引入复杂性感知的微调策略,显著减少了数据使用量,同时提升了模型的准确性。这一方法与传统的全面微调方法本质上不同,后者对所有数据均进行推理。

关键设计:在参数设置上,使用了熵作为复杂性指标,损失函数设计上结合了SFT和蒸馏的优势,确保在较少数据下仍能保持高效的学习效果。

📊 实验亮点

实验结果显示,提出的方法在平均准确率上达到0.58,显著高于标准SFT的0.45和蒸馏的0.56,同时使用的数据量减少了81%。这一提升表明了复杂性感知微调的有效性和优势。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、对话系统和知识问答等。通过提高微调效率和准确性,该方法能够在资源有限的情况下,快速适应特定领域的需求,具有重要的实际价值和未来影响。

📄 摘要(原文)

General-purpose Large Language Models (LLMs) are frequently fine-tuned through supervised fine-tuning (SFT) to enhance performance in specific domains. Better results can be achieved by distilling the chain-of-thought of a larger model at the cost of numerous expensive calls and a much greater amount of data. We propose a novel blueprint for efficient fine-tuning that uses reasoning only for complex data identified by entropy. Specifically, across two small open models ($~3B$) we split the training data into complexity categories by a single token answer entropy (ROC AUC $0.73$), fine-tune large language models (LLMs) via SFT and distillation, and show that our pipeline significantly outperforms the standard SFT approach ($0.58$ vs $0.45$ average accuracy) and outperforms the distillation approach ($0.58$ vs $0.56$ average accuracy) while using $81%$ less data.