iNews: A Multimodal Dataset for Modeling Personalized Affective Responses to News
作者: Tiancheng Hu, Nigel Collier
分类: cs.CL, cs.CY
发布日期: 2025-03-05 (更新: 2025-07-04)
备注: Dataset available at https://huggingface.co/datasets/pitehu/inews
💡 一句话要点
iNews:一个用于建模个性化情感反应的大规模多模态新闻数据集
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 个性化情感建模 多模态数据集 新闻情感分析 用户行为预测 情感计算 LLM个性化 主观性建模
📋 核心要点
- 现有方法缺乏细粒度数据,难以建模个体差异驱动的个性化情感反应,通常依赖于聚合标签。
- iNews数据集通过收集个体对新闻内容的多方面情感标签和个人信息,旨在建模个性化情感反应。
- 实验表明,结合个人信息可以显著提升情感预测准确率,即使在少量样本学习场景下也有效。
📝 摘要(中文)
为了更好地理解个体如何感知和回应信息,并促进以人为本的AI系统发展,本文提出了iNews,一个用于建模个性化情感反应的大规模数据集。该数据集包含来自291位英国参与者对2899条来自英国主要媒体的多模态Facebook新闻帖子的标注,平均每个样本有5.18个标注者。对于每个帖子,标注者提供了多方面的标签,包括效价、唤醒度、支配度、离散情绪、内容相关性判断、分享可能性和模态重要性评级。重要的是,我们收集了全面的标注者个人信息,涵盖人口统计、个性、媒体信任和消费模式,这些信息解释了15.2%的标注方差,远高于现有的NLP数据集。结合这些信息,在零样本预测中获得了7%的准确率提升,即使在32-shot上下文学习中仍然有益。iNews为LLM个性化、主观性、情感计算和人类行为模拟的研究开辟了新的可能性。
🔬 方法详解
问题定义:现有方法在建模个体对新闻的情感反应时,缺乏足够细粒度的数据,无法捕捉个体差异带来的影响。它们通常依赖于聚合的标签,忽略了个体的情感差异和主观性,导致模型泛化能力不足。
核心思路:iNews的核心思路是通过收集大量个体对新闻内容的情感标注,并结合个体的个人信息(如人口统计、个性、媒体信任等),来建模个性化的情感反应。这种方法旨在捕捉个体差异,提高情感预测的准确性和鲁棒性。
技术框架:iNews数据集的构建流程主要包括以下几个阶段:1) 从英国主要媒体收集Facebook新闻帖子(包含文本、图像等);2) 招募具有不同人口统计背景的英国参与者作为标注者;3) 要求标注者对每个新闻帖子进行多方面的标注,包括情感维度(效价、唤醒度、支配度)、离散情绪、内容相关性、分享可能性和模态重要性;4) 收集标注者的个人信息,包括人口统计、个性、媒体信任和消费模式。
关键创新:iNews的关键创新在于:1) 数据集规模大,包含大量多模态新闻帖子和个体标注;2) 收集了全面的标注者个人信息,这些信息能够解释显著的标注方差;3) 强调了个体情感反应的个性化建模,为LLM个性化研究提供了新的数据基础。
关键设计:在数据标注方面,采用了多维度的情感标签,包括效价、唤醒度、支配度、离散情绪等,以更全面地捕捉个体的情感反应。在个人信息收集方面,涵盖了人口统计、个性、媒体信任和消费模式等多个方面,以更深入地了解个体的情感偏好和行为模式。在实验方面,采用了零样本学习和少量样本学习等方法,验证了个人信息对情感预测的有效性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,结合标注者的个人信息可以显著提升情感预测的准确率。在零样本预测中,准确率提升了7%。即使在32-shot上下文学习中,结合个人信息仍然能够带来性能提升。这些结果表明,个体差异对情感反应有重要影响,iNews数据集为研究个性化情感建模提供了有价值的资源。
🎯 应用场景
iNews数据集可应用于个性化新闻推荐、情感分析、用户行为预测、社交媒体舆情分析等领域。通过理解个体对新闻的情感反应,可以为用户提供更符合其兴趣和情感需求的新闻内容,提高用户满意度和参与度。此外,该数据集还可以用于研究人类情感的复杂性和主观性,促进情感计算和人机交互的发展。
📄 摘要(原文)
Understanding how individuals perceive and react to information is fundamental for advancing social and behavioral sciences and developing human-centered AI systems. Current approaches often lack the granular data needed to model these personalized responses, relying instead on aggregated labels that obscure the rich variability driven by individual differences. We introduce iNews, a novel large-scale dataset specifically designed to facilitate the modeling of personalized affective responses to news content. Our dataset comprises annotations from 291 demographically diverse UK participants across 2,899 multimodal Facebook news posts from major UK outlets, with an average of 5.18 annotators per sample. For each post, annotators provide multifaceted labels including valence, arousal, dominance, discrete emotions, content relevance judgments, sharing likelihood, and modality importance ratings. Crucially, we collect comprehensive annotator persona information covering demographics, personality, media trust, and consumption patterns, which explain 15.2% of annotation variance - substantially higher than existing NLP datasets. Incorporating this information yields a 7% accuracy gain in zero-shot prediction and remains beneficial even with 32-shot in-context learning. iNews opens new possibilities for research in LLM personalization, subjectivity, affective computing, and human behavior simulation.