Fanar: An Arabic-Centric Multimodal Generative AI Platform

📄 arXiv: 2501.13944v1 📥 PDF

作者: Fanar Team, Ummar Abbas, Mohammad Shahmeer Ahmad, Firoj Alam, Enes Altinisik, Ehsannedin Asgari, Yazan Boshmaf, Sabri Boughorbel, Sanjay Chawla, Shammur Chowdhury, Fahim Dalvi, Kareem Darwish, Nadir Durrani, Mohamed Elfeky, Ahmed Elmagarmid, Mohamed Eltabakh, Masoomali Fatehkia, Anastasios Fragkopoulos, Maram Hasanain, Majd Hawasly, Mus'ab Husaini, Soon-Gyo Jung, Ji Kim Lucas, Walid Magdy, Safa Messaoud, Abubakr Mohamed, Tasnim Mohiuddin, Basel Mousi, Hamdy Mubarak, Ahmad Musleh, Zan Naeem, Mourad Ouzzani, Dorde Popovic, Amin Sadeghi, Husrev Taha Sencar, Mohammed Shinoy, Omar Sinan, Yifan Zhang, Ahmed Ali, Yassine El Kheir, Xiaosong Ma, Chaoyi Ruan

分类: cs.CL, cs.AI

发布日期: 2025-01-18


💡 一句话要点

Fanar:一个以阿拉伯语为中心的多模态生成式AI平台

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 阿拉伯语 多模态生成 大型语言模型 检索增强生成 语音识别 内容溯源 伊斯兰教

📋 核心要点

  1. 现有阿拉伯语多模态生成AI平台能力不足,缺乏针对阿拉伯语文化和语言特点的优化。
  2. Fanar平台构建了两个高性能阿拉伯语LLM,并结合定制RAG系统和语音识别等模块,提升生成质量。
  3. Fanar Star和Fanar Prime在阿拉伯语基准测试中表现出色,平台还提供内容溯源功能,增强可信度。

📝 摘要(中文)

Fanar是一个以阿拉伯语为中心的多模态生成式AI平台,支持语言、语音和图像生成任务。其核心是Fanar Star和Fanar Prime,这两个高性能的阿拉伯语大型语言模型(LLM),在同等规模的模型中,于既定基准测试上表现最佳。Fanar Star是一个70亿参数的模型,从头开始训练,使用了近1万亿的干净且去重的阿拉伯语、英语和代码tokens。Fanar Prime是一个90亿参数的模型,基于Gemma-2 9B基础模型,在相同的1万亿token集上持续训练。这两个模型同时部署,并通过定制的编排器透明地路由不同类型的提示。Fanar平台还提供许多其他功能,包括用于处理宗教提示的定制伊斯兰检索增强生成(RAG)系统,以及用于总结预训练数据截止日期之后发生的当前或最近事件信息的Recency RAG。该平台提供额外的认知能力,包括支持多种阿拉伯语方言的内部双语语音识别,以及经过微调以更好反映区域特征的语音和图像生成。最后,Fanar提供了一种归属服务,可用于验证基于事实生成内容的真实性。Fanar的设计、开发和实施完全由哈马德·本·哈利法大学卡塔尔计算研究所(QCRI)承担,并由卡塔尔通信和信息技术部赞助,以实现主权AI技术的发展。

🔬 方法详解

问题定义:现有的大型语言模型在处理阿拉伯语,特别是阿拉伯语的文化和语言细微差别时,往往表现不佳。此外,缺乏专门针对阿拉伯语环境优化的多模态生成平台,限制了阿拉伯语AI技术的发展。现有的方法在处理特定领域的知识(如伊斯兰教)和实时信息时也存在局限性。

核心思路:Fanar平台的核心思路是构建一个以阿拉伯语为中心,并针对阿拉伯语文化和语言特性进行优化的多模态生成式AI平台。通过从头训练或持续训练大型语言模型,并结合检索增强生成(RAG)技术,以及针对阿拉伯语方言优化的语音识别模块,来提升平台在阿拉伯语环境下的生成质量和应用能力。

技术框架:Fanar平台包含以下主要模块:1) Fanar Star (7B) 和 Fanar Prime (9B) 两个大型语言模型,作为平台的核心生成能力。2) 定制的编排器,用于根据不同的提示类型,透明地路由到合适的模型。3) Islamic RAG系统,用于处理宗教相关的提示。4) Recency RAG系统,用于总结最新的信息。5) 双语语音识别模块,支持多种阿拉伯语方言。6) 语音和图像生成模块,针对区域特征进行微调。7) 归属服务,用于验证生成内容的真实性。

关键创新:Fanar平台的关键创新在于其以阿拉伯语为中心的设计理念,以及针对阿拉伯语文化和语言特性进行的优化。具体包括:1) 从头训练或持续训练高性能的阿拉伯语LLM。2) 构建定制的RAG系统,以处理特定领域的知识和实时信息。3) 优化语音识别模块,以支持多种阿拉伯语方言。4) 提供内容溯源功能,增强生成内容的可信度。

关键设计:Fanar Star从头开始训练,使用了近1万亿的tokens,包含阿拉伯语、英语和代码。Fanar Prime基于Gemma-2 9B模型进行持续训练,使用了相同的token集。Islamic RAG系统和Recency RAG系统都采用了定制的检索策略和知识库。语音识别模块采用了针对阿拉伯语方言的声学模型和语言模型。归属服务采用了基于知识图谱和外部数据库的验证方法。

🖼️ 关键图片

img_0

📊 实验亮点

Fanar Star和Fanar Prime在阿拉伯语基准测试中表现出色,达到了同等规模模型的最佳水平。平台提供的Islamic RAG系统能够准确回答宗教相关问题,Recency RAG系统能够及时总结最新信息。此外,平台还提供了内容溯源功能,可以验证生成内容的真实性。

🎯 应用场景

Fanar平台可广泛应用于阿拉伯语内容创作、智能客服、教育、宗教研究、新闻摘要等领域。它能够生成高质量的阿拉伯语文本、语音和图像,并提供针对特定领域(如伊斯兰教)的知识服务。该平台还有助于促进阿拉伯语AI技术的发展,并提升阿拉伯语在数字世界的地位。

📄 摘要(原文)

We present Fanar, a platform for Arabic-centric multimodal generative AI systems, that supports language, speech and image generation tasks. At the heart of Fanar are Fanar Star and Fanar Prime, two highly capable Arabic Large Language Models (LLMs) that are best in the class on well established benchmarks for similar sized models. Fanar Star is a 7B (billion) parameter model that was trained from scratch on nearly 1 trillion clean and deduplicated Arabic, English and Code tokens. Fanar Prime is a 9B parameter model continually trained on the Gemma-2 9B base model on the same 1 trillion token set. Both models are concurrently deployed and designed to address different types of prompts transparently routed through a custom-built orchestrator. The Fanar platform provides many other capabilities including a customized Islamic Retrieval Augmented Generation (RAG) system for handling religious prompts, a Recency RAG for summarizing information about current or recent events that have occurred after the pre-training data cut-off date. The platform provides additional cognitive capabilities including in-house bilingual speech recognition that supports multiple Arabic dialects, voice and image generation that is fine-tuned to better reflect regional characteristics. Finally, Fanar provides an attribution service that can be used to verify the authenticity of fact based generated content. The design, development, and implementation of Fanar was entirely undertaken at Hamad Bin Khalifa University's Qatar Computing Research Institute (QCRI) and was sponsored by Qatar's Ministry of Communications and Information Technology to enable sovereign AI technology development.