Watching Movies Like a Human: Egocentric Emotion Understanding for Embodied Companions
作者: Ze Dong, Hao Shi, Zejia Gao, Zhonghua Yi, Kaiwei Wang, Lin Wang
分类: cs.CV
发布日期: 2026-04-17
备注: 15 pages
💡 一句话要点
提出EgoScreen-Emotion数据集,用于具身智能体在主视角屏幕观看电影时的情感理解。
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 主视角视频 情感理解 具身智能体 多模态学习 长时序建模
📋 核心要点
- 现有电影情感理解研究主要基于原始电影素材,忽略了具身智能体在主视角屏幕观看电影时存在的领域差异。
- 论文提出EgoScreen-Emotion (ESE)数据集,并构建多模态长上下文情感推理框架,以解决主视角屏幕电影情感理解问题。
- 实验表明,在ESE数据集上训练的模型在真实观看条件下具有更好的鲁棒性,性能优于在电影素材上训练的模型。
📝 摘要(中文)
具身机器人通常通过主视角屏幕界面而非原始电影素材来感知电影,这引入了视点扭曲、尺度变化、光照变化和环境干扰等领域差异。然而,现有的电影情感理解研究几乎完全基于电影素材,限制了其在真实观看场景中的跨领域泛化能力。为了弥合这一差距,我们推出了EgoScreen-Emotion (ESE),这是第一个用于主视角屏幕电影情感理解的基准数据集。ESE包含在受控主视角屏幕条件下捕获的224个电影预告片,生成28,667个时间对齐的关键帧,并由多个评估者使用置信度感知多标签协议进行标注,以解决情感模糊性。我们进一步构建了一个多模态长上下文情感推理框架,该框架对时间视觉证据、叙事摘要、压缩的历史上下文和音频线索进行建模。跨领域实验表明存在严重的领域差距:在电影素材上训练的模型在真实的主视角屏幕观测上评估时,Macro-F1从27.99降至16.69。在ESE上训练可以显著提高在真实观看条件下的鲁棒性。与强大的闭源多模态模型相比,我们的方法取得了具有竞争力的性能,突出了领域特定数据和长上下文多模态推理的重要性。
🔬 方法详解
问题定义:论文旨在解决具身智能体通过主视角屏幕观看电影时,由于视点扭曲、尺度变化、光照变化和环境干扰等因素导致的情感理解困难问题。现有方法主要基于原始电影素材,忽略了这些领域差异,导致模型在真实场景下的泛化能力较差。
核心思路:论文的核心思路是构建一个专门针对主视角屏幕电影情感理解的数据集(ESE),并设计一个多模态长上下文情感推理框架,利用时间视觉证据、叙事摘要、压缩的历史上下文和音频线索来提高模型在真实观看条件下的鲁棒性。
技术框架:整体框架包含数据收集与标注、多模态特征提取和情感推理三个主要阶段。首先,通过受控实验收集主视角屏幕电影观看数据,并进行多标签情感标注。然后,提取视觉、音频和文本特征。最后,利用长短期记忆网络(LSTM)或Transformer等模型进行情感推理,融合多模态信息。
关键创新:论文的关键创新在于:1) 提出了首个主视角屏幕电影情感理解数据集ESE,填补了该领域的空白;2) 设计了置信度感知多标签标注协议,以解决情感模糊性问题;3) 构建了多模态长上下文情感推理框架,有效利用了时间信息和多模态线索。
关键设计:在数据标注方面,采用了置信度感知多标签协议,允许标注者对每个情感标签给出置信度评分,从而更好地处理情感模糊性。在模型方面,使用了LSTM或Transformer等模型来建模长时序依赖关系,并设计了多模态融合机制,将视觉、音频和文本特征进行有效整合。具体参数设置和网络结构细节未在摘要中详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在电影素材上训练的模型在真实的主视角屏幕观测上评估时,Macro-F1从27.99降至16.69,存在显著的领域差距。而在ESE数据集上训练的模型,在真实观看条件下具有更好的鲁棒性,性能显著提升。该方法与强大的闭源多模态模型相比,取得了具有竞争力的性能,验证了领域特定数据和长上下文多模态推理的重要性。
🎯 应用场景
该研究成果可应用于具身智能体的情感陪伴、智能家居、人机交互等领域。例如,机器人可以通过理解用户观看电影时的情感,提供个性化的推荐、评论或互动,从而提升用户体验。此外,该研究也有助于提高机器人在复杂环境下的感知和理解能力。
📄 摘要(原文)
Embodied robotic agents often perceive movies through an egocentric screen-view interface rather than native cinematic footage, introducing domain shifts such as viewpoint distortion, scale variation, illumination changes, and environmental interference. However, existing research on movie emotion understanding is almost exclusively conducted on cinematic footage, limiting cross-domain generalization to real-world viewing scenarios. To bridge this gap, we introduce EgoScreen-Emotion (ESE), the first benchmark dataset for egocentric screen-view movie emotion understanding. ESE contains 224 movie trailers captured under controlled egocentric screen-view conditions, producing 28,667 temporally aligned key-frames annotated by multiple raters with a confidence-aware multi-label protocol to address emotional ambiguity. We further build a multimodal long-context emotion reasoning framework that models temporal visual evidence, narrative summaries, compressed historical context, and audio cues. Cross-domain experiments reveal a severe domain gap: models trained on cinematic footage drop from 27.99 to 16.69 Macro-F1 when evaluated on realistic egocentric screen-view observations. Training on ESE substantially improves robustness under realistic viewing conditions. Our approach achieves competitive performance compared with strong closed-source multimodal models, highlighting the importance of domain-specific data and long-context multimodal reasoning.