Phoenix-VL 1.5 Medium Technical Report

📄 arXiv: 2605.10391v1 📥 PDF

作者: Team Phoenix, :, Arka Ray, Askar Ali Mohamed Jawad, Biondi Lee, Elijah Seah, Eva Lim, Fiona Teo, Grace Toh, Guang Xiang Teo, Jun En Tan, Jia Hui Bong, Jiale Wang, Jonathan Ng, Justin Tan, Kai Zhe Yew, Matthew Ong, Shun Yi Yeo, Wen Jett Lam, Wen Xiu Tan, Ze Yu Zhang, Gee Wah Ng, Chee Wee Ang, Mistral AI, :, Adrien Sadé, Guillaume Kunsch, Jia Sin Loh, Nicolas Schuhl, Rupert Menneer, Umar Jamil, Vincent Maladière, Yimu Pan

分类: cs.CL, cs.AI, cs.CV

发布日期: 2026-05-11

备注: Release page: https://medium.com/htx-ai/introducing-phoenix-vl-1-5-medium-multimodal-intelligence-uniquely-singaporean-ef8214c8cfa1


💡 一句话要点

提出Phoenix-VL 1.5 Medium:通过深度领域适配与在线DPO构建区域化多模态大模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大模型 领域适配 在线直接偏好优化 主权AI 长上下文扩展 本地化评估

📋 核心要点

  1. 现有通用大模型在特定区域文化、法律法规及本地化语境理解上存在显著不足,缺乏针对性的主权AI解决方案。
  2. 通过多阶段持续预训练、长上下文扩展及针对性的后训练,将本地化语料深度融入Mistral Medium 3.1基础架构。
  3. 实验表明,该模型在新加坡本地化基准测试中表现卓越,同时在通用多模态与STEM任务中保持了与顶尖模型相当的竞争力。

📝 摘要(中文)

本文介绍了Phoenix-VL 1.5 Medium,这是一个拥有1230亿参数的原生多模态、多语言基础模型,专门针对区域语言及新加坡语境进行了深度适配。作为主权AI资产,该模型证明了在保持通用智能与对齐能力的同时,通过深度领域适配实现本地化是可行的。研究团队基于Mistral Medium 3.1进行了1万亿token的多模态持续预训练,随后进行了2500亿token的长上下文扩展。在后训练阶段,引入了220亿token的新颖新加坡多模态数据集及文化、法律语料,并利用50亿token进行了在线直接偏好优化(Online DPO)。该模型在新加坡本地多模态、法律及政府政策基准测试中达到SOTA水平,同时在通用多模态智能、多语言及STEM任务中保持了全球竞争力。此外,本文还提出了一套包含本地化知识与机构对齐安全框架的评估体系。

🔬 方法详解

问题定义:现有通用多模态大模型在处理特定区域(如新加坡)的法律、文化及政府政策时,往往因缺乏相关语料训练而导致理解偏差,且在进行领域适配时容易出现通用能力的“灾难性遗忘”。

核心思路:采用“通用基础模型+深度领域适配”的策略,通过分阶段的持续预训练与精细化的后训练,在保留模型通用智能的前提下,将本地化知识深度注入模型参数空间。

技术框架:模型基于Mistral Medium 3.1构建,流程包括:1) 1万亿token的多模态持续预训练;2) 2500亿token的长上下文扩展;3) 220亿token的本地化语料后训练;4) 50亿token的在线直接偏好优化(Online DPO)。

关键创新:引入了专门针对新加坡语境的人工标注多模态数据集,并构建了一套包含机构对齐行为与安全框架的评估体系,实现了从数据 curation 到模型对齐的全链路本地化适配。

关键设计:利用在线DPO技术进行模型对齐,确保模型输出符合特定的机构规范与安全标准,同时通过长上下文扩展技术提升了模型处理复杂长文档的能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Phoenix-VL 1.5 Medium在新加坡本地多模态、法律及政府政策基准测试中刷新了SOTA记录。在保持123B参数规模的同时,其通用多模态智能、多语言处理及STEM能力与国际主流模型持平,证明了深度领域适配与通用性能之间的高效平衡。

🎯 应用场景

该模型主要应用于新加坡的公共部门与企业环境,包括自动化法律文档分析、政府政策咨询、本地化多模态内容生成以及符合区域合规要求的智能客服系统。其主权AI属性使其在处理敏感数据与特定文化语境任务时具有极高的实际价值与安全性。

📄 摘要(原文)

We introduce Phoenix-VL 1.5 Medium, a 123B-parameter natively multimodal and multilingual foundation model, adapted to regional languages and the Singapore context. Developed as a sovereign AI asset, it demonstrates that deep domain adaptation can be achieved with minimal degradation to broad-spectrum intelligence and alignment. Continued pretraining was performed on Mistral Medium 3.1 using a localized 1-trillion tokens multimodal corpus, followed by a 250-billion tokens long-context extension phase. Subsequent post-training incorporated a novel human-annotated Singapore multimodal dataset and curated textual corpus on Singapore culture, knowledge, and legislation, totaling 22-billion tokens. An additional 5 billion tokens of model alignment was performed through Online Direct Preference Optimization. Phoenix-VL 1.5 Medium achieves state-of-the-art performance for its size on Singapore multimodal, legal, and government policy benchmarks while remaining globally competitive on general multimodal intelligence, multilingual, and STEM benchmarks. We also introduce a novel evaluation suite encompassing localized knowledge benchmarks and an institutionally aligned model behavior and safety framework. We report the data curation principles, training methodology, and highlight benchmark and inference performance.