OmniCharacter: Towards Immersive Role-Playing Agents with Seamless Speech-Language Personality Interaction

📄 arXiv: 2505.20277v2 📥 PDF

作者: Haonan Zhang, Run Luo, Xiong Liu, Yuchuan Wu, Ting-En Lin, Pengpeng Zeng, Qiang Qu, Feiteng Fang, Min Yang, Lianli Gao, Jingkuan Song, Fei Huang, Yongbin Li

分类: cs.CL, cs.CV

发布日期: 2025-05-26 (更新: 2025-06-05)

备注: 14 pages, 6 figures

🔗 代码/项目: GITHUB


💡 一句话要点

OmniCharacter:提出一种无缝语音-语言个性化交互模型,实现沉浸式角色扮演Agent。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 角色扮演Agent 语音-语言交互 个性化建模 沉浸式体验 低延迟推理

📋 核心要点

  1. 现有角色扮演Agent主要关注文本对话,忽略了语音特征在沉浸式交互中的重要性,导致用户体验受限。
  2. OmniCharacter通过无缝语音-语言个性化交互模型,使Agent在交互中保持角色一致的个性和声音特征。
  3. OmniCharacter在OmniCharacter-10K数据集上进行训练,实验表明其在内容和风格上优于现有方法,且响应延迟低。

📝 摘要(中文)

角色扮演Agent(RPAs)受益于大型语言模型,是一种新兴的交互式AI系统,可以模拟具有不同个性的角色。然而,现有方法主要集中于以文本形式模仿角色之间的对话,忽略了角色的声音特征(例如,声音风格和情感)在交互中的关键作用,而这些特征往往能在真实场景中带来更沉浸式的体验。为了实现这一目标,我们提出了OmniCharacter,这是第一个无缝语音-语言个性交互模型,旨在以低延迟实现沉浸式RPAs。具体来说,OmniCharacter使Agent能够在整个交互过程中始终如一地表现出角色特定的个性和声音特征,从而实现语音和语言响应的混合。为了使模型与语音-语言场景对齐,我们构建了一个名为OmniCharacter-10K的数据集,其中包含更独特的角色(20个)、上下文丰富的多轮对话(10K)和动态语音响应(135K)。实验结果表明,与现有的RPAs和主流语音-语言模型相比,我们的方法在内容和风格方面都能产生更好的响应,响应延迟低至289ms。代码和数据集可在https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/OmniCharacter获取。

🔬 方法详解

问题定义:现有角色扮演Agent主要依赖文本进行交互,忽略了语音特征(如声音风格和情感)在提升用户沉浸感方面的作用。这导致交互体验不够真实和自然,限制了角色扮演Agent的应用场景。现有方法难以同时兼顾语言和语音的个性化表达,以及低延迟的响应需求。

核心思路:OmniCharacter的核心思路是构建一个能够无缝融合语音和语言信息的角色扮演Agent。通过学习角色特定的个性和声音特征,使Agent在交互过程中能够一致地表达角色身份。这种设计旨在提升交互的真实感和沉浸感,从而改善用户体验。

技术框架:OmniCharacter的整体架构包含以下主要模块:1) 角色个性建模模块,用于学习和表示角色的语言和语音个性特征;2) 语音-语言融合模块,用于将语言输入和角色个性特征融合,生成个性化的语音响应;3) 低延迟推理模块,用于优化模型推理速度,实现实时交互。整个流程包括接收用户输入,通过角色个性建模模块提取角色特征,融合语言信息生成语音响应,最终输出给用户。

关键创新:OmniCharacter的关键创新在于其无缝语音-语言个性化交互能力。与现有方法相比,OmniCharacter能够同时控制语言和语音的风格,从而更全面地模拟角色。此外,该模型还注重低延迟推理,以满足实时交互的需求。

关键设计:OmniCharacter的关键设计包括:1) 使用Transformer架构进行角色个性建模,捕捉角色语言和语音的细微差别;2) 设计了专门的损失函数,用于鼓励模型生成与角色个性一致的语音响应;3) 采用知识蒸馏等技术优化模型推理速度,降低响应延迟。具体参数设置和网络结构细节在论文中有详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OmniCharacter在OmniCharacter-10K数据集上进行了评估,实验结果表明,与现有角色扮演Agent和主流语音-语言模型相比,OmniCharacter在内容和风格方面均取得了显著提升。此外,OmniCharacter实现了低至289ms的响应延迟,满足了实时交互的需求。具体性能提升幅度在论文中有详细数据(未知)。

🎯 应用场景

OmniCharacter具有广泛的应用前景,包括虚拟助手、游戏角色、教育辅导等领域。它可以用于创建更具吸引力和个性化的虚拟角色,提升用户在各种交互场景中的沉浸感和参与度。未来,OmniCharacter有望应用于元宇宙、在线教育、智能客服等领域,提供更自然、更人性化的交互体验。

📄 摘要(原文)

Role-Playing Agents (RPAs), benefiting from large language models, is an emerging interactive AI system that simulates roles or characters with diverse personalities. However, existing methods primarily focus on mimicking dialogues among roles in textual form, neglecting the role's voice traits (e.g., voice style and emotions) as playing a crucial effect in interaction, which tends to be more immersive experiences in realistic scenarios. Towards this goal, we propose OmniCharacter, a first seamless speech-language personality interaction model to achieve immersive RPAs with low latency. Specifically, OmniCharacter enables agents to consistently exhibit role-specific personality traits and vocal traits throughout the interaction, enabling a mixture of speech and language responses. To align the model with speech-language scenarios, we construct a dataset named OmniCharacter-10K, which involves more distinctive characters (20), richly contextualized multi-round dialogue (10K), and dynamic speech response (135K). Experimental results showcase that our method yields better responses in terms of both content and style compared to existing RPAs and mainstream speech-language models, with a response latency as low as 289ms. Code and dataset are available at https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/OmniCharacter.