The Breeze 2 Herd of Models: Traditional Chinese LLMs Based on Llama with Vision-Aware and Function-Calling Capabilities
作者: MediaTek Research, :, Chan-Jan Hsu, Chia-Sheng Liu, Meng-Hsi Chen, Muxi Chen, Po-Chun Hsu, Yi-Chang Chen, Da-Shan Shiu
分类: cs.CL
发布日期: 2025-01-23 (更新: 2025-02-11)
💡 一句话要点
联发科发布Breeze2模型系列:支持繁体中文、视觉理解和函数调用的Llama模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 繁体中文LLM 多模态学习 函数调用 视觉理解 Llama模型 预训练 移动应用
📋 核心要点
- 现有繁体中文LLM在函数调用和视觉理解方面存在不足,限制了其应用范围。
- Breeze2通过在Llama 3.2基础上进行持续预训练,并增强函数调用和视觉理解能力,提升繁体中文处理能力。
- 实验表明,Breeze2在台湾通用知识、指令跟随、函数调用和视觉理解等任务上表现出色。
📝 摘要(中文)
Llama-Breeze2(简称Breeze2)是一套先进的多模态语言模型,提供3B和8B两种参数配置,专门用于增强繁体中文的语言表示能力。Breeze2模型系列基于Llama 3.2模型家族,通过在一个广泛的语料库上进行持续预训练,以提升繁体中文的语言和文化传承。除了语言建模能力外,该模型还显著增强了函数调用和视觉理解能力。据我们所知,在发布之时,在没有推理诱导提示的情况下,Breeze2是同等规模模型中,在繁体中文函数调用和图像理解方面表现最强的模型。Breeze2的有效性通过台湾通用知识、指令跟随、长上下文、函数调用和视觉理解等各种任务进行了基准测试。我们根据Llama 3.2社区许可证公开发布所有Breeze2模型,并展示了该模型在移动平台上运行的能力,同时开源了一个移动应用程序。
🔬 方法详解
问题定义:现有繁体中文大语言模型在函数调用和视觉理解方面能力不足,无法有效处理需要结合外部知识或视觉信息的复杂任务。这限制了它们在实际应用中的潜力。
核心思路:Breeze2的核心思路是在强大的Llama 3.2模型基础上,通过大规模的繁体中文语料库进行持续预训练,并针对性地增强函数调用和视觉理解能力。这样既能继承Llama 3.2的通用语言能力,又能更好地适应繁体中文的特点,并扩展其应用范围。
技术框架:Breeze2模型系列基于Llama 3.2架构,主要包含以下几个阶段:1) 基于大规模繁体中文语料库的持续预训练,提升模型对繁体中文的理解和生成能力;2) 函数调用能力增强,通过训练模型理解和执行函数调用指令,使其能够与外部工具或API进行交互;3) 视觉理解能力增强,通过训练模型理解图像内容,并将其与文本信息相结合,实现多模态交互。
关键创新:Breeze2的关键创新在于其针对繁体中文的定制化训练和多模态能力的增强。它不仅在Llama 3.2的基础上进行了持续预训练,使其更好地适应繁体中文的语言特点,还通过引入函数调用和视觉理解能力,扩展了模型的应用范围。
关键设计:论文中未明确给出关键参数设置、损失函数、网络结构等技术细节。这些细节可能属于联发科的商业机密,或者在后续的论文中才会公开。但可以推测,函数调用能力的训练可能采用了特定的指令微调数据集和损失函数,视觉理解能力的训练可能采用了视觉-语言对比学习等方法。
🖼️ 关键图片
📊 实验亮点
Breeze2模型在繁体中文函数调用和图像理解方面表现出色,在同等规模模型中性能领先。具体实验数据未在摘要中详细给出,但强调了其在台湾通用知识、指令跟随、长上下文等任务上的有效性。开源的移动应用程序也展示了该模型在移动平台上的潜力。
🎯 应用场景
Breeze2模型系列可广泛应用于智能客服、内容创作、教育辅助、智能家居等领域。其强大的繁体中文处理能力和多模态交互能力,使其能够更好地服务于台湾及其他使用繁体中文的地区,并为相关产业带来新的发展机遇。未来,该模型有望进一步扩展到更多领域,如医疗、金融等。
📄 摘要(原文)
Llama-Breeze2 (hereinafter referred to as Breeze2) is a suite of advanced multi-modal language models, available in 3B and 8B parameter configurations, specifically designed to enhance Traditional Chinese language representation. Building upon the Llama 3.2 model family, we continue the pre-training of Breeze2 on an extensive corpus to enhance the linguistic and cultural heritage of Traditional Chinese. In addition to language modeling capabilities, we significantly augment the models with function calling and vision understanding capabilities. At the time of this publication, as far as we are aware, absent reasoning-inducing prompts, Breeze2 are the strongest performing models in Traditional Chinese function calling and image understanding in its size class. The effectiveness of Breeze2 is benchmarked across various tasks, including Taiwan general knowledge, instruction-following, long context, function calling, and vision understanding. We are publicly releasing all Breeze2 models under the Llama 3.2 Community License. We also showcase the capabilities of the model running on mobile platform with a mobile application which we also open source.