DNA 1.0 Technical Report
作者: Jungyup Lee, Jemin Kim, Sang Park, SeungJae Lee
分类: cs.CL
发布日期: 2025-01-18
🔗 代码/项目: HUGGINGFACE
💡 一句话要点
DNA 1.0:面向韩英双语优化的80亿参数指令微调语言模型
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 双语语言模型 韩语自然语言处理 指令微调 持续预训练 模型合并 直接偏好优化 知识蒸馏 Llama 3
📋 核心要点
- 现有语言模型在韩语理解和生成方面存在不足,尤其是在指令跟随任务中表现不佳。
- DNA 1.0通过持续预训练、监督微调、模型合并、直接偏好优化和知识蒸馏等技术,提升韩语能力。
- 该模型在多个韩语和英语基准测试中取得了领先成果,证明了其在双语任务上的有效性。
📝 摘要(中文)
本报告介绍了DNA 1.0 8B Instruct,这是一个针对韩语和英语任务优化的先进双语语言模型。通过对Llama 3.1 8B进行高质量韩语数据集的持续预训练(CPT),以及随后的监督微调(SFT),我们创建了一个具有增强韩语能力的指令跟随模型。然后,该模型通过球面线性插值(SLERP)与Llama 3.1 8B Instruct合并,并通过直接偏好优化(DPO)和知识蒸馏(KD)进行进一步优化。DNA 1.0 8B Instruct在韩国特定任务上取得了最先进的结果,包括KMMLU(53.26%)、KoBEST(83.40%)和BELEBELE(57.99%),同时在MMLU(66.64%)、MMLU-Pro(43.05%)和GSM8K(80.52%)上保持了强大的英语能力。作为一个开放模型,DNA 1.0 8B Instruct代表了双语语言建模的重大进步。
🔬 方法详解
问题定义:现有的大型语言模型在处理韩语任务时,性能往往不如英语任务。尤其是在指令跟随方面,模型的理解能力和生成质量有待提高。现有的方法难以兼顾韩语和英语的性能,并且缺乏针对韩语的优化。
核心思路:该论文的核心思路是通过对一个强大的英文基础模型(Llama 3.1 8B)进行针对性的韩语优化,从而构建一个高性能的双语模型。通过持续预训练、监督微调、模型合并等技术,逐步提升模型在韩语任务上的表现。同时,利用直接偏好优化和知识蒸馏等技术,进一步提升模型的指令跟随能力和泛化能力。
技术框架:DNA 1.0 8B Instruct的整体框架包括以下几个主要阶段: 1. 持续预训练(CPT):使用高质量的韩语数据集对Llama 3.1 8B进行持续预训练,以增强其韩语理解能力。 2. 监督微调(SFT):使用指令跟随数据集对预训练模型进行监督微调,使其能够更好地理解和执行指令。 3. 模型合并(SLERP):将微调后的模型与Llama 3.1 8B Instruct通过球面线性插值(SLERP)进行合并,以平衡韩语和英语的性能。 4. 直接偏好优化(DPO):使用DPO算法对合并后的模型进行优化,以提升其指令跟随能力。 5. 知识蒸馏(KD):使用知识蒸馏技术,将更强大的模型的知识迁移到DNA 1.0 8B Instruct,以提升其泛化能力。
关键创新:该论文的关键创新在于将多种技术(CPT、SFT、SLERP、DPO、KD)有效地结合起来,从而构建了一个高性能的双语指令跟随模型。特别是在模型合并阶段,使用SLERP算法能够更好地平衡韩语和英语的性能。此外,针对韩语的持续预训练和监督微调也为模型性能的提升做出了重要贡献。
关键设计: * 持续预训练数据:使用了高质量的韩语数据集进行持续预训练,具体数据集细节未知。 * 监督微调数据:使用了指令跟随数据集进行监督微调,具体数据集细节未知。 * SLERP插值系数:SLERP算法中的插值系数需要仔细调整,以平衡韩语和英语的性能,具体数值未知。 * DPO奖励函数:DPO算法中的奖励函数需要根据具体任务进行设计,以提升模型的指令跟随能力,具体设计未知。 * 知识蒸馏策略:知识蒸馏过程中,需要选择合适的教师模型和蒸馏策略,以最大程度地提升模型的泛化能力,具体策略未知。
🖼️ 关键图片
📊 实验亮点
DNA 1.0 8B Instruct在多个韩语基准测试中取得了最先进的结果,包括KMMLU(53.26%)、KoBEST(83.40%)和BELEBELE(57.99%)。同时,该模型在MMLU(66.64%)、MMLU-Pro(43.05%)和GSM8K(80.52%)等英语基准测试中也保持了强大的性能。这些结果表明,DNA 1.0 8B Instruct在韩语和英语任务上都具有很强的竞争力。
🎯 应用场景
DNA 1.0 8B Instruct可广泛应用于韩语和英语相关的自然语言处理任务,例如机器翻译、文本摘要、问答系统、对话生成等。该模型尤其适用于需要处理韩语指令的任务,例如智能助手、聊天机器人等。作为一个开源模型,DNA 1.0 8B Instruct可以促进韩语自然语言处理技术的发展,并为研究人员和开发者提供一个强大的基础模型。
📄 摘要(原文)
In this report, we present DNA 1.0 8B Instruct, a state-of-the-art bilingual language model optimized for Korean and English language tasks. By applying continual pre-training (CPT) with high-quality Korean datasets to Llama 3.1 8B and subsequent supervised fine-tuning (SFT), we create an instruction-following model with enhanced Korean language capabilities. This model is then merged with Llama 3.1 8B Instruct via spherical linear interpolation (SLERP) and undergoes further optimization through direct preference optimization (DPO) and knowledge distillation (KD). DNA 1.0 8B Instruct achieves state-of-the-art results on Korean-specific tasks, including KMMLU (53.26%), KoBEST (83.40%), and BELEBELE (57.99%), while maintaining strong English capabilities on MMLU (66.64%), MMLU-Pro (43.05%) and GSM8K (80.52%). As an open model, DNA 1.0 8B Instruct represents a significant advancement in bilingual language modeling. As an open model, DNA 1.0 8B Instruct is freely available through https://huggingface.co/dnotitia/Llama-DNA-1.0-8B-Instruct . For commercial licensing inquiries or feedback, please contact us at https://www.dnotitia.com/contact/post-form