ComVi: Context-Aware Optimized Comment Display in Video Playback

📄 arXiv: 2603.26173v1 📥 PDF

作者: Minsun Kim, Dawon Lee, Junyong Noh

分类: cs.MM, cs.CV, cs.GR, cs.HC

发布日期: 2026-03-27

备注: To appear in Proceedings of the ACM CHI Conference on Human Factors in Computing Systems (CHI 2026)

DOI: 10.1145/3772318.3791018


💡 一句话要点

ComVi:上下文感知的视频评论优化显示系统,提升用户沉浸感

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频评论 上下文感知 音视频相关性 用户体验 优化算法

📋 核心要点

  1. 现有视频平台评论显示与视频内容脱节,导致用户体验不佳,易受剧透影响。
  2. ComVi通过音视频相关性将评论与视频时间戳对齐,并优化评论序列。
  3. 用户研究表明,ComVi显著提升用户体验,优于传统视频界面。

📝 摘要(中文)

本文提出了一种名为ComVi的新型系统,旨在解决视频播放时评论与视频内容脱节的问题。在YouTube等视频分享平台上,评论通常独立于视频播放显示,导致用户在观看视频时可能看到与当前场景无关的评论,从而产生剧透并降低沉浸感。ComVi通过计算音视频相关性,将评论映射到相关的视频时间戳,然后通过优化算法构建评论序列,该优化算法考虑了时间相关性、受欢迎程度(点赞数)和舒适阅读的显示时长。用户研究表明,与传统的视频界面(如YouTube和Danmaku)相比,ComVi提供了更具吸引力的体验,71.9%的参与者选择ComVi作为他们最喜欢的界面。

🔬 方法详解

问题定义:现有视频平台(如YouTube)的评论系统通常将评论按照时间顺序或受欢迎程度进行排序,而忽略了评论内容与视频当前播放场景的关联性。这导致用户在观看视频时,可能会看到与当前场景无关的评论,甚至包含剧透信息,从而影响观看体验和沉浸感。现有方法缺乏对评论上下文信息的有效利用。

核心思路:ComVi的核心思路是将评论与视频内容进行关联,使得评论能够在其上下文相关的时刻显示。通过计算评论内容与视频片段的音视频相关性,确定评论应该出现的时间戳。然后,通过优化算法,选择合适的评论进行显示,并控制显示时长,以保证用户能够舒适地阅读。这样,用户看到的评论就能够与当前视频内容形成呼应,从而提升观看体验。

技术框架:ComVi系统主要包含以下几个模块:1) 评论时间戳映射模块:利用音视频相关性算法,将每条评论映射到视频中与其内容相关的特定时间戳。2) 评论序列构建模块:基于时间相关性、评论受欢迎程度(点赞数)和显示时长等因素,通过优化算法构建评论序列。3) 评论显示模块:根据构建好的评论序列,在视频播放过程中,于合适的时间点显示相关的评论。

关键创新:ComVi的关键创新在于其上下文感知的评论显示方法。与传统的评论显示方法不同,ComVi充分利用了音视频信息,将评论与视频内容进行关联,从而实现了评论的精准投放。此外,ComVi还通过优化算法,综合考虑了时间相关性、受欢迎程度和显示时长等因素,从而保证了评论显示的质量和用户体验。

关键设计:在评论时间戳映射模块中,可以使用预训练的音频和视频特征提取器(例如,VGGish用于音频,ResNet用于视频)来提取评论文本、音频和视频帧的特征。然后,可以使用余弦相似度等方法来计算评论文本与音频和视频帧之间的相关性。在评论序列构建模块中,可以使用动态规划等优化算法来选择合适的评论进行显示,并控制显示时长。目标函数可以包含时间相关性、受欢迎程度和显示时长等因素的加权和。具体权重的选择可以通过实验或用户反馈进行调整。

📊 实验亮点

用户研究表明,ComVi在用户参与度方面显著优于传统的视频界面(YouTube和Danmaku)。71.9%的参与者选择ComVi作为他们最喜欢的界面。此外,ComVi在减少剧透和提升用户沉浸感方面也表现出色。这些结果表明,ComVi是一种有效的视频评论显示方法,具有很高的应用价值。

🎯 应用场景

ComVi系统可广泛应用于各类视频分享平台,如YouTube、Bilibili等,以及在线教育平台和视频会议系统。通过提供上下文感知的评论显示,ComVi能够显著提升用户观看体验,增强用户互动,并减少剧透风险。未来,ComVi还可应用于智能客服、视频内容分析等领域,例如,自动提取视频关键帧并生成相关评论摘要。

📄 摘要(原文)

On general video-sharing platforms like YouTube, comments are displayed independently of video playback. As viewers often read comments while watching a video, they may encounter ones referring to moments unrelated to the current scene, which can reveal spoilers and disrupt immersion. To address this problem, we present ComVi, a novel system that displays comments at contextually relevant moments, enabling viewers to see time-synchronized comments and video content together. We first map all comments to relevant video timestamps by computing audio-visual correlation, then construct the comment sequence through an optimization that considers temporal relevance, popularity (number of likes), and display duration for comfortable reading. In a user study, ComVi provided a significantly more engaging experience than conventional video interfaces (i.e., YouTube and Danmaku), with 71.9% of participants selecting ComVi as their most preferred interface.