CompanionCast: A Multi-Agent Conversational AI Framework with Spatial Audio for Social Co-Viewing Experiences
作者: Yiyang Wang, Chen Chen, Tica Lin, Vishnu Raj, Josh Kimball, Alex Cabral, Josiah Hester
分类: cs.HC, cs.CL
发布日期: 2025-12-11
备注: 11 pages
💡 一句话要点
CompanionCast:利用空间音频的多智能体对话AI框架,提升社交共 viewing 体验
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多智能体系统 对话AI 社交临场感 空间音频 共 viewing 体验
📋 核心要点
- 现有共同观看体验缺乏足够的社交互动,导致用户临场感不足,影响观看乐趣。
- CompanionCast框架通过多智能体协同对话,模拟真实社交场景,提升用户在虚拟环境中的社交临场感。
- 实验表明,在体育赛事观看场景下,CompanionCast框架显著提升了用户的社交临场感。
📝 摘要(中文)
社交临场感是共同观看内容乐趣的核心,但现代媒体消费日益孤立。本文研究了多智能体对话AI系统是否能重现跨多种内容类型的共享观看体验。我们提出了CompanionCast,一个通用框架,用于编排多个角色专业化的AI智能体,这些智能体使用多模态输入、语音合成和空间音频来响应视频内容。CompanionCast独特地集成了一个LLM-as-a-Judge模块,该模块迭代地对跨五个维度(相关性、真实性、参与度、多样性、人格一致性)的对话进行评分和改进。我们通过体育观看(一个具有丰富动态和强大社会传统的领域)验证了这个框架,其中与足球迷的初步研究表明,与单独观看相比,多智能体交互提高了感知的社交临场感。我们贡献了:(1)一个用于围绕多模态视频内容编排多智能体对话的通用框架,(2)一个用于对话质量控制的新型评估器-智能体流水线,以及(3)在AI介导的共同观看中增加社交临场感的探索性证据。我们讨论了将这种方法应用于包括娱乐、教育和协作观看体验在内的各种观看环境的挑战和未来方向。
🔬 方法详解
问题定义:论文旨在解决现代媒体消费日益孤立,缺乏社交临场感的问题。现有方法通常是单向的,缺乏多方互动,无法模拟真实社交场景,导致用户体验不佳。
核心思路:论文的核心思路是利用多智能体对话AI系统,模拟真实社交场景中的多方互动。通过让多个角色专业化的AI智能体围绕视频内容进行对话,创造更具沉浸感和社交性的观看体验。这样设计的目的是为了弥补现有方法在社交互动方面的不足,提升用户的社交临场感。
技术框架:CompanionCast框架包含以下主要模块:1) 多模态输入模块,用于接收视频内容、用户语音等多种输入;2) 角色专业化的AI智能体模块,每个智能体扮演不同的角色,具有不同的个性和知识;3) 语音合成模块,用于生成智能体的语音输出;4) 空间音频模块,用于模拟声音的空间位置,增强沉浸感;5) LLM-as-a-Judge模块,用于评估和改进对话质量。整体流程是:多模态输入模块接收视频内容,AI智能体模块根据视频内容进行对话,语音合成模块生成智能体的语音输出,空间音频模块模拟声音的空间位置,LLM-as-a-Judge模块评估和改进对话质量。
关键创新:论文最重要的技术创新点是LLM-as-a-Judge模块,该模块利用大型语言模型(LLM)对对话质量进行评估和改进。与现有方法相比,LLM-as-a-Judge模块能够更全面、更准确地评估对话质量,并根据评估结果对对话进行迭代优化,从而提升对话的质量和流畅性。
关键设计:LLM-as-a-Judge模块的关键设计在于其评估维度,包括相关性、真实性、参与度、多样性和人格一致性。这些维度能够全面地衡量对话的质量。此外,LLM-as-a-Judge模块还采用了迭代优化的方法,通过多次评估和改进,逐步提升对话的质量。
🖼️ 关键图片
📊 实验亮点
在体育赛事观看场景下,与单独观看相比,使用CompanionCast框架的多智能体交互显著提高了用户的社交临场感。具体数据未知,但用户反馈表明,多智能体对话能够有效模拟真实社交场景,提升观看体验。
🎯 应用场景
CompanionCast框架可应用于多种社交共 viewing 场景,如在线教育、远程协作、娱乐直播等。通过模拟真实社交互动,提升用户参与度和学习效果,增强用户粘性,具有广阔的应用前景和商业价值。
📄 摘要(原文)
Social presence is central to the enjoyment of watching content together, yet modern media consumption is increasingly solitary. We investigate whether multi-agent conversational AI systems can recreate the dynamics of shared viewing experiences across diverse content types. We present CompanionCast, a general framework for orchestrating multiple role-specialized AI agents that respond to video content using multimodal inputs, speech synthesis, and spatial audio. Distinctly, CompanionCast integrates an LLM-as-a-Judge module that iteratively scores and refines conversations across five dimensions (relevance, authenticity, engagement, diversity, personality consistency). We validate this framework through sports viewing, a domain with rich dynamics and strong social traditions, where a pilot study with soccer fans suggests that multi-agent interaction improves perceived social presence compared to solo viewing. We contribute: (1) a generalizable framework for orchestrating multi-agent conversations around multimodal video content, (2) a novel evaluator-agent pipeline for conversation quality control, and (3) exploratory evidence of increased social presence in AI-mediated co-viewing. We discuss challenges and future directions for applying this approach to diverse viewing contexts including entertainment, education, and collaborative watching experiences.