MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction
作者: Junbo Cui, Bokai Xu, Chongyi Wang, Tianyu Yu, Weiyue Sun, Yingjing Xu, Tianran Wang, Zhihui He, Wenshuo Ma, Tianchi Cai, Jiancheng Gui, Luoyuan Zhang, Xian Sun, Fuwei Huang, Moye Chen, Zhuo Lin, Hanyu Liu, Qingxin Gui, Qingzhe Han, Yuyang Wen, Huiping Liu, Rongkang Wang, Yaqi Zhang, Hongliang Wei, Chi Chen, You Li, Kechen Fang, Jie Zhou, Yuxuan Li, Guoyang Zeng, Chaojun Xiao, Yankai Lin, Xu Han, Maosong Sun, Zhiyuan Liu, Yuan Yao
分类: cs.CL
发布日期: 2026-04-30
💡 一句话要点
MiniCPM-o 4.5:面向实时全双工全模态交互的轻量级大模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大模型 实时交互 全双工 Omni-Flow 边缘计算
📋 核心要点
- 现有多模态大模型交互范式存在感知与响应分离、模型被动响应等问题,限制了类人交互体验。
- MiniCPM-o 4.5 提出 Omni-Flow 统一流式框架,沿时间轴对齐多模态输入输出,实现实时全双工交互。
- 该模型在视觉语言能力上接近 Gemini 2.5 Flash,超越 Qwen3-Omni-30B-A3B,且可在低资源设备上运行。
📝 摘要(中文)
多模态大型语言模型(MLLM)的最新进展已将AI能力从静态离线数据处理带到实时流式交互,但它们仍然远未达到人类水平的多模态交互。关键瓶颈不再仅仅是模态覆盖或延迟,而是交互范式本身。首先,感知和响应仍然被分离成交替的阶段,阻止模型在生成过程中纳入新的输入以进行及时调整。其次,当前大多数模型仍然是被动的,仅响应显式的用户请求,而不是在不断演变的多模态环境中主动行动。我们提出了MiniCPM-o 4.5,这是我们为实现类人多模态交互的最新努力,它通过实时全双工全模态交互来弥合这些差距。它可以实时地同时看、听和说,同时还表现出主动行为,例如根据其对实时场景的持续理解发出提醒或评论。MiniCPM-o 4.5背后的关键技术是Omni-Flow,这是一个统一的流式框架,它将全模态输入和输出沿着共享的时间轴对齐。这种公式将传统的基于回合的交互转换为全双工、时间对齐的过程,从而实现同步感知和响应,并允许主动行为在同一框架内产生。MiniCPM-o 4.5总共有90亿个参数,在视觉语言能力方面接近Gemini 2.5 Flash,以其规模提供最先进的开源性能。它还在全模态理解方面超越了Qwen3-Omni-30B-A3B,并提供更好的语音生成,且计算效率显着提高。在高效的架构设计和推理优化的驱动下,该模型可以在边缘设备上执行实时全双工全模态交互,且RAM成本低于12GB。
🔬 方法详解
问题定义:现有的大型多模态模型在人机交互方面存在两个主要痛点。一是交互模式是半双工的,即模型需要在接收到完整的输入后才能开始生成输出,无法在生成过程中根据新的输入进行调整。二是模型是被动的,只能响应用户的明确指令,而不能主动地根据环境变化做出反应,例如主动提醒或评论。
核心思路:MiniCPM-o 4.5 的核心思路是将传统的回合制交互转变为全双工、时间对齐的流式交互。通过 Omni-Flow 框架,模型可以同时进行感知和响应,并且能够根据实时环境的变化做出主动行为。这种设计使得模型能够更自然、更流畅地与人类进行交互。
技术框架:MiniCPM-o 4.5 的整体架构基于 Omni-Flow 框架,该框架将各种模态的输入(如视觉、听觉)和输出(如语音)沿着一个共享的时间轴对齐。模型可以同时接收和处理来自不同模态的输入,并在生成输出的同时不断地根据新的输入进行调整。这种流式处理方式使得模型能够实现实时全双工交互。
关键创新:MiniCPM-o 4.5 最重要的技术创新在于 Omni-Flow 框架。该框架将传统的基于回合的交互转变为全双工、时间对齐的流式交互,使得模型能够同时进行感知和响应,并且能够根据实时环境的变化做出主动行为。与现有方法相比,Omni-Flow 框架能够更好地模拟人类的交互方式,从而提高人机交互的自然性和流畅性。
关键设计:MiniCPM-o 4.5 采用了高效的架构设计和推理优化,使得模型能够在边缘设备上运行,且 RAM 成本低于 12GB。具体的参数设置、损失函数和网络结构等技术细节在论文中没有详细描述,属于未知信息。
🖼️ 关键图片
📊 实验亮点
MiniCPM-o 4.5 在视觉语言能力方面接近 Gemini 2.5 Flash,以其规模提供最先进的开源性能。在全模态理解方面超越了 Qwen3-Omni-30B-A3B,并提供更好的语音生成,且计算效率显着提高。该模型可以在边缘设备上执行实时全双工全模态交互,且RAM成本低于12GB,展示了其在资源受限环境下的应用潜力。
🎯 应用场景
MiniCPM-o 4.5 有着广泛的应用前景,例如智能助手、智能家居、远程协作、教育娱乐等领域。它可以应用于需要实时、自然、流畅人机交互的场景,例如在智能家居中,它可以根据用户的语音指令和视觉信息,主动地控制家电设备,并根据用户的行为习惯提供个性化的服务。在远程协作中,它可以实时地捕捉用户的语音和图像,并根据用户的意图提供辅助信息,从而提高协作效率。
📄 摘要(原文)
Recent progress in multimodal large language models (MLLMs) has brought AI capabilities from static offline data processing to real-time streaming interaction, yet they still remain far from human-level multimodal interaction. The key bottlenecks are no longer modality coverage or latency alone, but the interaction paradigm itself. First, perception and response are still separated into alternating phases, preventing models from incorporating new inputs for timely adjustment during generation. Second, most current models remain reactive, responding only to explicit user requests instead of acting proactively in the evolving multimodal environment. We present MiniCPM-o 4.5, our latest effort towards human-like multimodal interaction, which mitigates these gaps by real-time full-duplex omni-modal interaction. It can see, listen, and speak simultaneously in real-time, while also exhibiting proactive behaviors such as issuing reminders or comments based on its continuous understanding of the live scene. The key technique behind MiniCPM-o 4.5 is Omni-Flow, a unified streaming framework that aligns omni-modal inputs and outputs along a shared temporal axis. This formulation converts conventional turn-based interaction into a full-duplex, time-aligned process, enabling simultaneous perception and response and allowing proactive behavior to arise within the same framework. With a total of 9B parameters, MiniCPM-o 4.5 approaches Gemini 2.5 Flash in vision-language capabilities, delivering state-of-the-art open-source performance at its scale. It also surpasses Qwen3-Omni-30B-A3B in omni-modal understanding and delivers better speech generation, with significantly higher computation efficiency. Driven by its efficient architecture design and inference optimization, the model can perform real-time full-duplex omni-modal interaction on edge devices with less than 12GB RAM cost.