Character Beyond Speech: Leveraging Role-Playing Evaluation in Audio Large Language Models via Reinforcement Learning

📄 arXiv: 2604.13804v1 📥 PDF

作者: Dongjie Fu, Fangming Feng, Xize Cheng, Linjun Li, Zhou Zhao, Tao Jin

分类: cs.LG

发布日期: 2026-04-15


💡 一句话要点

提出RoleJudge框架,利用音频大语言模型评估语音角色扮演中角色一致性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语音角色扮演 音频大语言模型 角色一致性评估 强化学习 多模态学习

📋 核心要点

  1. 现有语音角色扮演系统难以量化语音中的超语言信息,导致角色一致性评估困难。
  2. 提出RoleJudge框架,利用音频大语言模型,从多模态和多维度评估语音与角色的一致性。
  3. 构建RoleChat数据集,并采用多阶段训练和强化学习,实验表明RoleJudge优于现有基线模型。

📝 摘要(中文)

多模态大模型的快速发展革新了语音对话系统中多样角色的模拟,开创了一种新颖的交互模式。角色属性不仅体现在文本回复中,还通过声音特征来体现,因为语音传达了丰富的超语言信息,而这些信息难以量化。这给评估角色扮演代理的角色一致性带来了巨大的困难。为了解决这些挑战,我们提出了RoleJudge,一个利用音频大语言模型来系统评估跨多种模态和维度语音与角色之间一致性的评估框架。此外,我们引入了RoleChat,这是第一个带有思维链推理标注的语音角色扮演评估数据集,包含了一组多样化的真实和LLM生成的语音样本。利用该数据集,我们实现了一个多阶段训练范式,并在强化学习中加入了标准对齐,以减轻优化过程中的奖励不一致问题。在准确性和主观评估方面的实验结果表明,RoleJudge优于各种基线模型,验证了我们的多维评估框架的有效性。

🔬 方法详解

问题定义:论文旨在解决语音角色扮演系统中角色一致性评估的难题。现有方法难以有效量化语音中的超语言信息(如情感、语调等),导致无法准确评估语音内容与角色设定是否一致。这使得构建高质量的语音角色扮演系统面临挑战。

核心思路:论文的核心思路是利用音频大语言模型(Audio LLM)的强大能力,将语音信息转化为可理解和评估的特征表示。通过训练Audio LLM,使其能够理解语音中的细微差别,并判断这些差别是否符合特定角色的设定。同时,引入思维链推理标注,提升模型推理能力。

技术框架:整体框架包含以下几个主要模块:1) 数据集构建:构建RoleChat数据集,包含真实和LLM生成的语音样本,并进行思维链推理标注。2) 模型训练:采用多阶段训练范式,首先预训练Audio LLM,然后进行微调,使其适应角色一致性评估任务。3) 强化学习:使用强化学习方法,通过奖励机制优化模型,并引入标准对齐(Standard Alignment)来缓解奖励不一致问题。4) 评估框架:RoleJudge框架利用训练好的Audio LLM,从多个维度评估语音与角色的一致性。

关键创新:论文的关键创新在于:1) 提出了RoleJudge框架,首次将Audio LLM应用于语音角色扮演的角色一致性评估。2) 构建了RoleChat数据集,为语音角色扮演评估提供了高质量的数据资源。3) 引入了标准对齐的强化学习方法,有效缓解了奖励不一致问题。

关键设计:在模型训练方面,采用了多阶段训练策略,包括预训练、微调和强化学习。在强化学习中,使用了PPO算法,并设计了合适的奖励函数,以鼓励模型生成与角色设定一致的语音。标准对齐的具体实现方式未知,但其目的是为了保证奖励信号的稳定性和可靠性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,RoleJudge框架在角色一致性评估方面优于各种基线模型。具体性能数据和提升幅度未知,但主观评估也验证了RoleJudge的有效性。RoleChat数据集的构建为后续研究提供了宝贵资源。

🎯 应用场景

该研究成果可应用于智能语音助手、游戏角色扮演、虚拟主播等领域。通过提升语音角色扮演系统的角色一致性,可以增强用户体验,提高交互的真实感和沉浸感。未来,该技术还可应用于心理咨询、教育培训等领域,提供更加个性化和有效的服务。

📄 摘要(原文)

The rapid evolution of multimodal large models has revolutionized the simulation of diverse characters in speech dialogue systems, enabling a novel interactive paradigm. Character attributes are manifested not only in textual responses but also through vocal features, as speech conveys rich paralinguistic information that is challenging to quantify. This poses significant difficulties in evaluating the character alignment of role-playing agents. To address these challenges, we present RoleJudge, an evaluation framework that leverages audio large language models to systematically assess the alignment between speech and character across multiple modalities and dimensions. Furthermore, we introduce RoleChat, the first voice role-playing evaluation dataset enriched with chain-of-thought reasoning annotations, comprising a diverse set of authentic and LLM-generated speech samples. Utilizing this dataset, we implement a multi-stage training paradigm and incorporate Standard Alignment in reinforcement learning to mitigate reward misalignment during optimization. Experimental results in terms of accuracy and subjective assessment demonstrate that RoleJudge outperforms various baseline models, validating the effectiveness of our multidimensional evaluation framework.