Falcon2-11B Technical Report

📄 arXiv: 2407.14885v1 📥 PDF

作者: Quentin Malartic, Nilabhra Roy Chowdhury, Ruxandra Cojocaru, Mugariya Farooq, Giulia Campesan, Yasser Abdelaziz Dahou Djilali, Sanath Narayan, Ankit Singh, Maksim Velikanov, Basma El Amel Boussaha, Mohammed Al-Yafeai, Hamza Alobeidli, Leen Al Qadi, Mohamed El Amine Seddik, Kirill Fedyanin, Reda Alami, Hakim Hacid

分类: cs.CL, cs.CV

发布日期: 2024-07-20


💡 一句话要点

发布Falcon2-11B及多模态版本,探索训练策略并验证其在多语言和视觉任务上的泛化能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 多模态学习 视觉语言模型 多阶段训练 泛化能力 下游任务 模型训练策略 Falcon2-11B

📋 核心要点

  1. 现有大型语言模型训练面临数据质量和训练策略的挑战,影响模型性能和泛化能力。
  2. Falcon2-11B采用多阶段训练方法,结合不同上下文长度和高质量数据集,提升模型性能。
  3. 实验表明,Falcon2-11B在多语言和代码任务上表现出强大的泛化能力,多模态版本在视觉语言任务上优于同等规模开源模型。

📝 摘要(中文)

本文介绍了Falcon2-11B,一个在超过五万亿tokens上训练的基础模型,以及它的多模态版本Falcon2-11B-vlm,一个视觉到文本的模型。我们报告了Falcon2-11B训练过程中的发现,该过程遵循一个多阶段方法,早期阶段的特点是上下文长度,最后阶段使用精心策划的高质量数据集。此外,我们报告了训练中期将批量大小加倍的影响,以及训练损失峰值如何受到学习率的影响。基础模型的下游性能在已建立的基准上进行评估,包括多语言和代码数据集。基础模型在所有任务中都表现出强大的泛化能力,使其适合下游微调用例。对于视觉语言模型,我们报告了在多个基准上的性能,并表明我们的模型实现了比类似大小的开源模型更高的平均分数。Falcon2-11B和Falcon2-11B-vlm的模型权重和代码均以宽松的许可证提供。

🔬 方法详解

问题定义:现有大型语言模型训练面临数据质量参差不齐、训练策略不完善等问题,导致模型在下游任务中的泛化能力受限。尤其是在多语言和视觉语言任务中,需要更有效的模型架构和训练方法来提升性能。

核心思路:Falcon2-11B的核心思路是通过多阶段训练策略,结合不同上下文长度的数据集和高质量的精选数据集,来提升模型的泛化能力和性能。同时,研究了训练过程中批量大小和学习率对模型训练稳定性的影响。

技术框架:Falcon2-11B的训练框架主要分为多阶段训练。早期阶段侧重于不同上下文长度的数据集训练,旨在提升模型对不同长度文本的处理能力。最终阶段则使用高质量的精选数据集,以进一步提升模型的性能和泛化能力。对于多模态版本Falcon2-11B-vlm,采用了视觉到文本的模型架构,具体架构细节未知。

关键创新:Falcon2-11B的关键创新在于其多阶段训练策略,通过结合不同特点的数据集,有效地提升了模型的泛化能力和性能。此外,对训练过程中批量大小和学习率的调整策略进行了深入研究,为后续模型训练提供了有价值的经验。

关键设计:论文中提到了批量大小加倍对训练的影响,以及学习率对训练损失峰值的影响,但具体的参数设置和损失函数等技术细节未详细说明。模型架构的具体细节也未知,需要进一步查阅相关资料。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Falcon2-11B在多语言和代码数据集上表现出强大的泛化能力,证明了其多阶段训练策略的有效性。Falcon2-11B-vlm在多个视觉语言基准测试中取得了优于同等规模开源模型的平均分数,表明其在视觉语言理解和生成方面具有显著优势。具体的性能数据和提升幅度未知。

🎯 应用场景

Falcon2-11B及其多模态版本具有广泛的应用前景,可应用于机器翻译、代码生成、图像描述、视觉问答等领域。其强大的泛化能力使其能够适应各种下游任务,为自然语言处理和计算机视觉领域的研究和应用提供有力支持。未来可进一步探索其在特定领域的微调和优化,以满足更专业的需求。

📄 摘要(原文)

We introduce Falcon2-11B, a foundation model trained on over five trillion tokens, and its multimodal counterpart, Falcon2-11B-vlm, which is a vision-to-text model. We report our findings during the training of the Falcon2-11B which follows a multi-stage approach where the early stages are distinguished by their context length and a final stage where we use a curated, high-quality dataset. Additionally, we report the effect of doubling the batch size mid-training and how training loss spikes are affected by the learning rate. The downstream performance of the foundation model is evaluated on established benchmarks, including multilingual and code datasets. The foundation model shows strong generalization across all the tasks which makes it suitable for downstream finetuning use cases. For the vision language model, we report the performance on several benchmarks and show that our model achieves a higher average score compared to open-source models of similar size. The model weights and code of both Falcon2-11B and Falcon2-11B-vlm are made available under a permissive license.