U-Mind: A Unified Framework for Real-Time Multimodal Interaction with Audiovisual Generation

📄 arXiv: 2602.23739v1 📥 PDF

作者: Xiang Deng, Feng Gao, Yong Zhang, Youxin Pang, Xu Xiaoming, Zhuoliang Kang, Xiaoming Wei, Yebin Liu

分类: cs.CV

发布日期: 2026-02-27

备注: Accepted to CVPR 2026


💡 一句话要点

U-Mind:用于实时多模态交互的统一框架,支持视听生成

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态交互 实时生成 统一框架 跨模态对齐 视听生成

📋 核心要点

  1. 现有系统在多模态交互中存在局限,要么仅限于单模态生成,要么推理能力下降,跨模态对齐效果差。
  2. U-Mind通过统一的对齐和推理框架,增强跨模态同步,并利用排练驱动学习保留推理能力。
  3. U-Mind在多模态交互任务上表现出色,包括问答、指令跟随和运动生成,达到最先进水平。

📝 摘要(中文)

本文提出了U-Mind,这是第一个用于高智能多模态对话的统一系统,它支持实时生成,并在单个交互循环中联合建模语言、语音、运动和视频合成。U-Mind实现了一个统一的对齐和推理框架,该框架通过分段对齐策略增强了跨模态同步,并通过排练驱动学习保留了推理能力。在推理过程中,U-Mind采用了一种文本优先的解码流程,该流程执行内部的思维链规划,然后跨模态进行时间同步生成。为了闭环,我们实现了一个以姿势和语音为条件的实时视频渲染框架,从而实现富有表现力和同步的视觉反馈。大量实验表明,U-Mind在一系列多模态交互任务(包括问答、指令跟随和运动生成)上实现了最先进的性能,为智能、沉浸式对话代理铺平了道路。

🔬 方法详解

问题定义:现有实时多模态交互系统通常存在两个主要问题:一是跨模态同步不足,导致生成的内容不连贯;二是推理能力较弱,无法进行复杂的对话和决策。这些问题限制了智能体在自然、动态交流中的应用。

核心思路:U-Mind的核心思路是构建一个统一的框架,能够同时处理语言、语音、运动和视频等多种模态的信息,并实现它们之间的实时同步和对齐。通过统一建模和推理,系统可以更好地理解用户的意图,并生成更自然、更具表现力的反馈。

技术框架:U-Mind的整体框架包含三个主要部分:统一对齐和推理框架、文本优先解码流程和实时视频渲染框架。统一对齐和推理框架负责跨模态信息的融合和推理;文本优先解码流程首先进行文本规划,然后同步生成其他模态的内容;实时视频渲染框架根据姿势和语音生成视觉反馈。

关键创新:U-Mind的关键创新在于其统一的对齐和推理框架,该框架采用分段对齐策略来增强跨模态同步,并使用排练驱动学习来保留推理能力。与现有方法相比,U-Mind能够更好地处理多模态信息之间的复杂关系,并生成更连贯、更自然的交互结果。

关键设计:U-Mind采用文本优先的解码流程,首先使用链式思考(Chain-of-Thought)进行文本规划,然后根据文本规划同步生成语音、运动和视频。实时视频渲染框架以姿势和语音为条件,生成具有表现力的视觉反馈。具体的参数设置、损失函数和网络结构等细节在论文中有详细描述,此处未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,U-Mind在多项多模态交互任务上取得了最先进的性能。例如,在问答任务中,U-Mind的准确率显著高于现有方法。在指令跟随任务中,U-Mind能够更准确地理解用户的意图并执行相应的动作。在运动生成任务中,U-Mind生成的运动更加自然和流畅。具体性能数据未知。

🎯 应用场景

U-Mind具有广泛的应用前景,例如智能虚拟助手、远程呈现、游戏和教育等领域。它可以用于构建更自然、更沉浸式的交互体验,使人与机器之间的交流更加高效和便捷。未来,U-Mind有望成为构建下一代智能交互系统的关键技术。

📄 摘要(原文)

Full-stack multimodal interaction in real-time is a central goal in building intelligent embodied agents capable of natural, dynamic communication. However, existing systems are either limited to unimodal generation or suffer from degraded reasoning and poor cross-modal alignment, preventing coherent and perceptually grounded interactions. In this work, we introduce U-Mind, the first unified system for high-intelligence multimodal dialogue that supports real-time generation and jointly models language, speech, motion, and video synthesis within a single interactive loop. At its core, U-Mind implements a Unified Alignment and Reasoning Framework that addresses two key challenges: enhancing cross-modal synchronization via a segment-wise alignment strategy, and preserving reasoning abilities through Rehearsal-Driven Learning. During inference, U-Mind adopts a text-first decoding pipeline that performs internal chain-of-thought planning followed by temporally synchronized generation across modalities. To close the loop, we implement a real-time video rendering framework conditioned on pose and speech, enabling expressive and synchronized visual feedback. Extensive experiments demonstrate that U-Mind achieves state-of-the-art performance on a range of multimodal interaction tasks, including question answering, instruction following, and motion generation, paving the way toward intelligent, immersive conversational agents.