Complexity-aware fine-tuning

作者: Andrey Goncharov, Daniil Vyazhev, Petr Sychev, Edvard Khalafyan, Alexey Zaytsev

分类: cs.LG, cs.CL

发布日期: 2025-06-26 (更新: 2025-10-11)

💡 一句话要点

提出复杂性感知微调方法以提升大语言模型性能

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 复杂性感知 微调方法 大语言模型 蒸馏训练 数据效率 自然语言处理 监督微调

📋 核心要点

现有的微调方法在处理复杂数据时效率低下，通常需要大量数据和计算资源。
本文提出了一种复杂性感知的微调方法，仅对复杂数据进行推理，从而提高微调效率。
实验结果表明，该方法在准确率和数据使用效率上均显著优于传统的SFT和蒸馏方法。

📝 摘要（中文）

通用的大语言模型（LLMs）通常通过监督微调（SFT）来提升特定领域的性能。通过对更大模型的思维链进行蒸馏，可以获得更好的结果，但代价是需要大量昂贵的调用和数据。本文提出了一种高效的微调新方案，仅对通过熵识别的复杂数据进行推理。具体而言，我们在两个小型开放模型（约3B参数）上，通过单个标记答案熵将训练数据分为复杂性类别，利用SFT和蒸馏对大语言模型进行微调，结果显示我们的管道显著优于标准SFT方法（平均准确率0.58对比0.45），并且在使用81%更少数据的情况下超越了蒸馏方法（平均准确率0.58对比0.56）。

🔬 方法详解

问题定义：本文旨在解决现有微调方法在处理复杂数据时的低效率问题，传统方法往往需要大量数据和计算资源，导致成本高昂。

核心思路：论文提出的核心思路是通过熵来识别数据的复杂性，仅对复杂数据进行推理，从而减少不必要的计算和数据使用，提高微调效率。

技术框架：整体架构包括数据复杂性分类、监督微调（SFT）和蒸馏三个主要模块。首先，通过单个标记答案熵将训练数据分为不同复杂性类别，然后对复杂数据进行微调。

关键创新：最重要的技术创新在于引入复杂性感知的微调策略，显著减少了数据使用量，同时提升了模型的准确性。这一方法与传统的全面微调方法本质上不同，后者对所有数据均进行推理。

关键设计：在参数设置上，使用了熵作为复杂性指标，损失函数设计上结合了SFT和蒸馏的优势，确保在较少数据下仍能保持高效的学习效果。

📊 实验亮点

实验结果显示，提出的方法在平均准确率上达到0.58，显著高于标准SFT的0.45和蒸馏的0.56，同时使用的数据量减少了81%。这一提升表明了复杂性感知微调的有效性和优势。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、对话系统和知识问答等。通过提高微调效率和准确性，该方法能够在资源有限的情况下，快速适应特定领域的需求，具有重要的实际价值和未来影响。

📄 摘要（原文）

General-purpose Large Language Models (LLMs) are frequently fine-tuned through supervised fine-tuning (SFT) to enhance performance in specific domains. Better results can be achieved by distilling the chain-of-thought of a larger model at the cost of numerous expensive calls and a much greater amount of data. We propose a novel blueprint for efficient fine-tuning that uses reasoning only for complex data identified by entropy. Specifically, across two small open models ($~3B$) we split the training data into complexity categories by a single token answer entropy (ROC AUC $0.73$), fine-tune large language models (LLMs) via SFT and distillation, and show that our pipeline significantly outperforms the standard SFT approach ($0.58$ vs $0.45$ average accuracy) and outperforms the distillation approach ($0.58$ vs $0.56$ average accuracy) while using $81%$ less data.

Complexity-aware fine-tuning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册