Community-Aware Assessment of Social Textual Engagement and Resonance: A Human-Centric Perspective on User-Generated Content Evaluation

📄 arXiv: 2606.01897v1 📥 PDF

作者: Tianjiao Li, Kai Zhao, Xiang Li, Yang Liu, Huyang Sun

分类: cs.AI

发布日期: 2026-06-01

备注: Published as a main conference paper at ACL 2026


💡 一句话要点

提出MEDEA模型,通过模拟社群共鸣评估用户生成内容质量,超越传统视觉保真度指标。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 用户生成内容评估 社交共鸣 多模态学习 思维链 社群感知

📋 核心要点

  1. 现有VQA方法侧重视觉质量,忽略了UGC内容中重要的社群互动和社会共鸣。
  2. MEDEA模型通过Social-CoT机制模拟不同用户角色,捕捉社群的集体认知和情感反应。
  3. CASTER-Bench数据集和实验结果表明,MEDEA显著优于现有方法,并提供可解释的推理过程。

📝 摘要(中文)

传统视频质量评估(VQA)过于关注美学保真度,忽略了用户生成内容(UGC)中复杂的社会动态。本文提出了一种范式转变,从以信号为中心的指标转向以人为中心的共鸣评估。我们引入了CASTER(社群感知的社交文本互动和共鸣评估),这是一个新的任务,它基于UGC的多模态属性而非单纯的视觉质量来评估其是否实现了积极的社群共鸣。为此,我们提出了MEDEA(多模态互动驱动的评估架构),它引入了一种新颖的社交思维链(Social-CoT)机制。与传统的逻辑CoT不同,Social-CoT执行多模态视角转换,实例化不同的观看者角色,以模拟集体认知和情感反应(即“社群思维”),然后得出质量判断。MEDEA通过一个两阶段方法进行训练,包括监督微调和过程监督强化学习,并使用社交对齐奖励来确保推理路径扎根于真实的人类社会认知。为了支持这项任务,我们发布了CASTER-Bench,这是一个涵盖各种UGC类别的综合性人工标注基准。实验表明,MEDEA在CASTER-Bench上显著优于最先进的基线,同时提供了可解释且富有同理心的推理路径,与真实的社群反馈相符。

🔬 方法详解

问题定义:传统视频质量评估(VQA)主要关注视频的视觉保真度,而忽略了用户生成内容(UGC)的社交属性,例如用户互动、社群共鸣等。现有方法无法有效评估UGC内容在社群中的接受度和影响力,导致评估结果与实际用户反馈不符。

核心思路:本文的核心思路是通过模拟社群的集体认知和情感反应来评估UGC内容的质量。具体而言,通过构建不同的用户角色(persona),并让模型模拟这些角色对UGC内容的多模态信息(例如视频内容、标题、评论等)进行思考和反应,从而预测该内容在社群中可能产生的共鸣。这种方法将评估的重点从单纯的视觉质量转移到更广泛的社交互动和用户情感。

技术框架:MEDEA的整体架构包含以下几个主要模块:1) 多模态输入编码器:用于提取UGC内容的多模态特征,包括视觉特征、文本特征等。2) Social-CoT模块:这是MEDEA的核心模块,它通过实例化不同的用户角色,并模拟这些角色对UGC内容进行思考和反应的过程。3) 质量评估模块:基于Social-CoT模块的输出,预测UGC内容的质量得分。4) 训练模块:采用两阶段训练方法,包括监督微调和过程监督强化学习。

关键创新:MEDEA的关键创新在于提出了Social-CoT机制。与传统的逻辑思维链(CoT)不同,Social-CoT专注于模拟人类的社会认知过程,通过实例化不同的用户角色,并模拟这些角色之间的互动和交流,从而更准确地捕捉社群的集体情感和反应。这种方法能够更好地理解UGC内容的社交属性,并提供更具解释性的评估结果。

关键设计:在Social-CoT模块中,关键的设计包括:1) 用户角色的定义:需要根据UGC内容的类型和目标受众,定义不同的用户角色,例如“积极评论者”、“消极评论者”、“普通观看者”等。2) 多模态信息融合:需要有效地融合UGC内容的多模态信息,例如视觉特征、文本特征、音频特征等,以便用户角色能够全面地理解内容。3) 社交对齐奖励:在强化学习阶段,使用社交对齐奖励来鼓励模型生成更符合人类社会认知的推理路径。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MEDEA在CASTER-Bench数据集上显著优于现有方法。实验结果表明,MEDEA在评估UGC内容的社群共鸣方面取得了显著的提升,并且能够提供可解释的推理路径,与真实的社群反馈更加一致。具体性能数据未知。

🎯 应用场景

该研究成果可应用于UGC内容推荐、内容审核、社交媒体分析等领域。通过更准确地评估UGC内容的社交价值和用户共鸣,可以提升内容推荐的精准度,减少不良信息的传播,并为社交媒体平台提供更深入的用户行为分析。

📄 摘要(原文)

Traditional Video Quality Assessment (VQA) focuses narrowly on aesthetic fidelity, overlooking the complex social dynamics that define quality in User-Generated Content (UGC). In this work, we propose a paradigm shift from signal-centric metrics to human-centric resonance assessment. We introduce CASTER (Community-Aware Assessment of Social Textual Engagement and Resonance), a new task that evaluates whether a UGC item achieves positive community resonance based on its multimodal attributes rather than visual quality alone. To address this, we present MEDEA (Multimodal Engagement-Driven Evaluation Architecture), which introduces a novel Social Chain-of-Thought (Social-CoT) mechanism. Unlike traditional logical CoT, Social-CoT performs multimodal perspective-taking, instantiating diverse viewer personas to simulate collective cognitive and emotional reactions (i.e., the "community mind") before deriving a quality judgment. MEDEA is trained via a two-stage approach involving supervised fine-tuning and process-supervised reinforcement learning with Social Alignment Reward to ensure reasoning paths are grounded in authentic human social cognition. To support this task, we release CASTER-Bench, a comprehensive human-annotated benchmark covering diverse UGC categories. Experiments demonstrate that MEDEA significantly outperforms state-of-the-art baselines on CASTER-Bench while providing interpretable and empathetic reasoning paths that align with real community feedback.