U-Mind: A Unified Framework for Real-Time Multimodal Interaction with Audiovisual Generation

作者: Xiang Deng, Feng Gao, Yong Zhang, Youxin Pang, Xu Xiaoming, Zhuoliang Kang, Xiaoming Wei, Yebin Liu

分类: cs.CV

发布日期: 2026-02-27

备注: Accepted to CVPR 2026

💡 一句话要点

U-Mind：用于实时多模态交互的统一框架，支持视听生成

🎯 匹配领域: 支柱四：生成式动作 (Generative Motion) 支柱七：动作重定向 (Motion Retargeting) 支柱八：物理动画 (Physics-based Animation) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态交互 实时生成 统一框架 跨模态对齐 视听生成

📋 核心要点

现有系统在多模态交互中存在局限，要么仅限于单模态生成，要么推理能力下降，跨模态对齐效果差。
U-Mind通过统一的对齐和推理框架，增强跨模态同步，并利用排练驱动学习保留推理能力。
U-Mind在多模态交互任务上表现出色，包括问答、指令跟随和运动生成，达到最先进水平。

📝 摘要（中文）

本文提出了U-Mind，这是第一个用于高智能多模态对话的统一系统，它支持实时生成，并在单个交互循环中联合建模语言、语音、运动和视频合成。U-Mind实现了一个统一的对齐和推理框架，该框架通过分段对齐策略增强了跨模态同步，并通过排练驱动学习保留了推理能力。在推理过程中，U-Mind采用了一种文本优先的解码流程，该流程执行内部的思维链规划，然后跨模态进行时间同步生成。为了闭环，我们实现了一个以姿势和语音为条件的实时视频渲染框架，从而实现富有表现力和同步的视觉反馈。大量实验表明，U-Mind在一系列多模态交互任务（包括问答、指令跟随和运动生成）上实现了最先进的性能，为智能、沉浸式对话代理铺平了道路。

🔬 方法详解

问题定义：现有实时多模态交互系统通常存在两个主要问题：一是跨模态同步不足，导致生成的内容不连贯；二是推理能力较弱，无法进行复杂的对话和决策。这些问题限制了智能体在自然、动态交流中的应用。

核心思路：U-Mind的核心思路是构建一个统一的框架，能够同时处理语言、语音、运动和视频等多种模态的信息，并实现它们之间的实时同步和对齐。通过统一建模和推理，系统可以更好地理解用户的意图，并生成更自然、更具表现力的反馈。

技术框架：U-Mind的整体框架包含三个主要部分：统一对齐和推理框架、文本优先解码流程和实时视频渲染框架。统一对齐和推理框架负责跨模态信息的融合和推理；文本优先解码流程首先进行文本规划，然后同步生成其他模态的内容；实时视频渲染框架根据姿势和语音生成视觉反馈。

关键创新：U-Mind的关键创新在于其统一的对齐和推理框架，该框架采用分段对齐策略来增强跨模态同步，并使用排练驱动学习来保留推理能力。与现有方法相比，U-Mind能够更好地处理多模态信息之间的复杂关系，并生成更连贯、更自然的交互结果。

关键设计：U-Mind采用文本优先的解码流程，首先使用链式思考（Chain-of-Thought）进行文本规划，然后根据文本规划同步生成语音、运动和视频。实时视频渲染框架以姿势和语音为条件，生成具有表现力的视觉反馈。具体的参数设置、损失函数和网络结构等细节在论文中有详细描述，此处未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，U-Mind在多项多模态交互任务上取得了最先进的性能。例如，在问答任务中，U-Mind的准确率显著高于现有方法。在指令跟随任务中，U-Mind能够更准确地理解用户的意图并执行相应的动作。在运动生成任务中，U-Mind生成的运动更加自然和流畅。具体性能数据未知。

🎯 应用场景

U-Mind具有广泛的应用前景，例如智能虚拟助手、远程呈现、游戏和教育等领域。它可以用于构建更自然、更沉浸式的交互体验，使人与机器之间的交流更加高效和便捷。未来，U-Mind有望成为构建下一代智能交互系统的关键技术。

📄 摘要（原文）

Full-stack multimodal interaction in real-time is a central goal in building intelligent embodied agents capable of natural, dynamic communication. However, existing systems are either limited to unimodal generation or suffer from degraded reasoning and poor cross-modal alignment, preventing coherent and perceptually grounded interactions. In this work, we introduce U-Mind, the first unified system for high-intelligence multimodal dialogue that supports real-time generation and jointly models language, speech, motion, and video synthesis within a single interactive loop. At its core, U-Mind implements a Unified Alignment and Reasoning Framework that addresses two key challenges: enhancing cross-modal synchronization via a segment-wise alignment strategy, and preserving reasoning abilities through Rehearsal-Driven Learning. During inference, U-Mind adopts a text-first decoding pipeline that performs internal chain-of-thought planning followed by temporally synchronized generation across modalities. To close the loop, we implement a real-time video rendering framework conditioned on pose and speech, enabling expressive and synchronized visual feedback. Extensive experiments demonstrate that U-Mind achieves state-of-the-art performance on a range of multimodal interaction tasks, including question answering, instruction following, and motion generation, paving the way toward intelligent, immersive conversational agents.

U-Mind: A Unified Framework for Real-Time Multimodal Interaction with Audiovisual Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理