CompanionCast: A Multi-Agent Conversational AI Framework with Spatial Audio for Social Co-Viewing Experiences

作者: Yiyang Wang, Chen Chen, Tica Lin, Vishnu Raj, Josh Kimball, Alex Cabral, Josiah Hester

分类: cs.HC, cs.CL

发布日期: 2025-12-11

备注: 11 pages

💡 一句话要点

CompanionCast：利用空间音频的多智能体对话AI框架，提升社交共 viewing 体验

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多智能体系统 对话AI 社交临场感 空间音频 共 viewing 体验

📋 核心要点

现有共同观看体验缺乏足够的社交互动，导致用户临场感不足，影响观看乐趣。
CompanionCast框架通过多智能体协同对话，模拟真实社交场景，提升用户在虚拟环境中的社交临场感。
实验表明，在体育赛事观看场景下，CompanionCast框架显著提升了用户的社交临场感。

📝 摘要（中文）

社交临场感是共同观看内容乐趣的核心，但现代媒体消费日益孤立。本文研究了多智能体对话AI系统是否能重现跨多种内容类型的共享观看体验。我们提出了CompanionCast，一个通用框架，用于编排多个角色专业化的AI智能体，这些智能体使用多模态输入、语音合成和空间音频来响应视频内容。CompanionCast独特地集成了一个LLM-as-a-Judge模块，该模块迭代地对跨五个维度（相关性、真实性、参与度、多样性、人格一致性）的对话进行评分和改进。我们通过体育观看（一个具有丰富动态和强大社会传统的领域）验证了这个框架，其中与足球迷的初步研究表明，与单独观看相比，多智能体交互提高了感知的社交临场感。我们贡献了：（1）一个用于围绕多模态视频内容编排多智能体对话的通用框架，（2）一个用于对话质量控制的新型评估器-智能体流水线，以及（3）在AI介导的共同观看中增加社交临场感的探索性证据。我们讨论了将这种方法应用于包括娱乐、教育和协作观看体验在内的各种观看环境的挑战和未来方向。

🔬 方法详解

问题定义：论文旨在解决现代媒体消费日益孤立，缺乏社交临场感的问题。现有方法通常是单向的，缺乏多方互动，无法模拟真实社交场景，导致用户体验不佳。

核心思路：论文的核心思路是利用多智能体对话AI系统，模拟真实社交场景中的多方互动。通过让多个角色专业化的AI智能体围绕视频内容进行对话，创造更具沉浸感和社交性的观看体验。这样设计的目的是为了弥补现有方法在社交互动方面的不足，提升用户的社交临场感。

技术框架：CompanionCast框架包含以下主要模块：1) 多模态输入模块，用于接收视频内容、用户语音等多种输入；2) 角色专业化的AI智能体模块，每个智能体扮演不同的角色，具有不同的个性和知识；3) 语音合成模块，用于生成智能体的语音输出；4) 空间音频模块，用于模拟声音的空间位置，增强沉浸感；5) LLM-as-a-Judge模块，用于评估和改进对话质量。整体流程是：多模态输入模块接收视频内容，AI智能体模块根据视频内容进行对话，语音合成模块生成智能体的语音输出，空间音频模块模拟声音的空间位置，LLM-as-a-Judge模块评估和改进对话质量。

关键创新：论文最重要的技术创新点是LLM-as-a-Judge模块，该模块利用大型语言模型（LLM）对对话质量进行评估和改进。与现有方法相比，LLM-as-a-Judge模块能够更全面、更准确地评估对话质量，并根据评估结果对对话进行迭代优化，从而提升对话的质量和流畅性。

关键设计：LLM-as-a-Judge模块的关键设计在于其评估维度，包括相关性、真实性、参与度、多样性和人格一致性。这些维度能够全面地衡量对话的质量。此外，LLM-as-a-Judge模块还采用了迭代优化的方法，通过多次评估和改进，逐步提升对话的质量。

🖼️ 关键图片

📊 实验亮点

在体育赛事观看场景下，与单独观看相比，使用CompanionCast框架的多智能体交互显著提高了用户的社交临场感。具体数据未知，但用户反馈表明，多智能体对话能够有效模拟真实社交场景，提升观看体验。

🎯 应用场景

CompanionCast框架可应用于多种社交共 viewing 场景，如在线教育、远程协作、娱乐直播等。通过模拟真实社交互动，提升用户参与度和学习效果，增强用户粘性，具有广阔的应用前景和商业价值。

📄 摘要（原文）

Social presence is central to the enjoyment of watching content together, yet modern media consumption is increasingly solitary. We investigate whether multi-agent conversational AI systems can recreate the dynamics of shared viewing experiences across diverse content types. We present CompanionCast, a general framework for orchestrating multiple role-specialized AI agents that respond to video content using multimodal inputs, speech synthesis, and spatial audio. Distinctly, CompanionCast integrates an LLM-as-a-Judge module that iteratively scores and refines conversations across five dimensions (relevance, authenticity, engagement, diversity, personality consistency). We validate this framework through sports viewing, a domain with rich dynamics and strong social traditions, where a pilot study with soccer fans suggests that multi-agent interaction improves perceived social presence compared to solo viewing. We contribute: (1) a generalizable framework for orchestrating multi-agent conversations around multimodal video content, (2) a novel evaluator-agent pipeline for conversation quality control, and (3) exploratory evidence of increased social presence in AI-mediated co-viewing. We discuss challenges and future directions for applying this approach to diverse viewing contexts including entertainment, education, and collaborative watching experiences.

CompanionCast: A Multi-Agent Conversational AI Framework with Spatial Audio for Social Co-Viewing Experiences

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理