Moral Outrage Shapes Commitments Beyond Attention: Multimodal Moral Emotions on YouTube in Korea and the US

📄 arXiv: 2601.21815v1 📥 PDF

作者: Seongchan Park, Jaehong Kim, Hyeonseung Kim, Heejin Bin, Sue Moon, Wonjae Lee

分类: cs.CY, cs.AI, cs.CL, cs.SI

发布日期: 2026-01-29

备注: Accepted at The Web Conference 2026. We release Korean and English multimodal moral emotion classifiers


💡 一句话要点

提出多模态道德情感分类器,揭示YouTube新闻中道德愤怒如何驱动用户参与。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态情感分析 道德情感 YouTube 用户参与 视觉语言模型 跨文化研究 新闻媒体

📋 核心要点

  1. 现有研究缺乏对多模态信息(如视频缩略图和标题)中道德情感的有效分析,难以准确评估其对用户参与的影响。
  2. 本研究提出一种基于视觉语言模型微调的多模态道德情感分类器,用于识别YouTube新闻视频中的道德情感表达。
  3. 实验结果表明,谴责性道德愤怒言论能够显著提升用户在YouTube上的各种参与行为,包括浏览、点赞和评论。

📝 摘要(中文)

本研究旨在理解媒体言论如何影响注意力经济下的用户参与度。通过分析韩国和美国YouTube主流新闻频道的内容,研究探讨了道德情感框架如何影响用户行为。为了捕捉平台的多模态特性,研究结合缩略图和视频标题,开发了一种多模态道德情感分类器,该分类器通过微调视觉语言模型实现。该模型在人工标注的韩语和英语多模态数据集上进行训练,并应用于约40万个来自主要新闻媒体的视频。研究分析了浏览量、点赞和评论等不同程度的参与指标。结果表明,谴责他人的道德愤怒言论能够持续提升各种形式的用户参与度,从被动观看至主动评论。研究结果表明,道德愤怒是一种特别有效的情感策略,不仅能吸引注意力,还能促进积极参与。研究还讨论了滥用谴责性言论的潜在风险,因为这种做法可能会加剧群体内外的分裂。为了促进未来的研究和确保可重复性,研究团队公开发布了韩语和英语多模态道德情感分类器。

🔬 方法详解

问题定义:本研究旨在解决如何有效识别和量化YouTube新闻视频中蕴含的道德情感,并分析这些情感如何影响用户参与度的问题。现有方法通常只关注文本信息,忽略了视频缩略图等视觉信息,导致情感识别的准确性不足。此外,缺乏针对不同文化背景(如韩国和美国)的对比研究。

核心思路:本研究的核心思路是利用多模态信息(视频标题和缩略图)来更准确地识别道德情感。通过构建和训练一个多模态道德情感分类器,可以捕捉到更丰富的情感表达,从而更准确地分析道德情感与用户参与度之间的关系。这种方法考虑了视觉和文本信息的互补性,提高了情感识别的鲁棒性。

技术框架:整体框架包括以下几个主要步骤:1) 数据收集:从YouTube上收集韩国和美国主流新闻频道的视频数据,包括视频标题、缩略图和用户参与数据(浏览量、点赞、评论)。2) 数据标注:对视频标题和缩略图进行人工标注,标注其蕴含的道德情感类型。3) 模型构建:基于预训练的视觉语言模型(Vision Language Model),构建多模态道德情感分类器。4) 模型训练:使用标注数据对分类器进行微调,使其能够准确识别视频中的道德情感。5) 效果分析:分析不同道德情感类型与用户参与度之间的关系。

关键创新:本研究的关键创新在于:1) 提出了一个多模态道德情感分类器,能够同时利用视频标题和缩略图信息进行情感识别。2) 构建了韩语和英语的多模态道德情感标注数据集,为后续研究提供了数据基础。3) 对比分析了韩国和美国在道德情感表达和用户参与方面的差异。

关键设计:在模型构建方面,研究团队选择了预训练的视觉语言模型,并针对道德情感分类任务进行了微调。具体来说,模型可能采用了Transformer架构,并结合了图像编码器和文本编码器,以实现视觉和文本信息的融合。损失函数可能采用了交叉熵损失函数,用于衡量模型预测结果与真实标签之间的差异。在数据增强方面,可能采用了图像旋转、裁剪等方法,以提高模型的泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究结果表明,谴责他人的道德愤怒言论能够显著提升YouTube视频的浏览量、点赞数和评论数,表明道德愤怒是一种有效的情感策略。该研究还发现,这种效应在韩国和美国都存在,但可能存在文化差异。研究团队公开发布了韩语和英语多模态道德情感分类器,为后续研究提供了便利。

🎯 应用场景

该研究成果可应用于舆情分析、社交媒体内容审核、在线广告推荐等领域。通过识别和量化网络内容中的道德情感,可以帮助政府、企业和个人更好地理解社会舆论,及时发现和应对潜在的社会风险。此外,该研究还可以用于个性化推荐,根据用户的道德偏好推荐更符合其价值观的内容。

📄 摘要(原文)

Understanding how media rhetoric shapes audience engagement is crucial in the attention economy. This study examines how moral emotional framing by mainstream news channels on YouTube influences user behavior across Korea and the United States. To capture the platform's multimodal nature, combining thumbnail images and video titles, we develop a multimodal moral emotion classifier by fine tuning a vision language model. The model is trained on human annotated multimodal datasets in both languages and applied to approximately 400,000 videos from major news outlets. We analyze engagement levels including views, likes, and comments, representing increasing degrees of commitment. The results show that other condemning rhetoric expressions of moral outrage that criticize others morally consistently increase all forms of engagement across cultures, with effects ranging from passive viewing to active commenting. These findings suggest that moral outrage is a particularly effective emotional strategy, attracting not only attention but also active participation. We discuss concerns about the potential misuse of other condemning rhetoric, as such practices may deepen polarization by reinforcing in group and out group divisions. To facilitate future research and ensure reproducibility, we publicly release our Korean and English multimodal moral emotion classifiers.