Seeing Candidates at Scale: Multimodal LLMs for Visual Political Communication on Instagram

作者: Michael Achmann-Denkler, Mario Haim, Christian Wolff

分类: cs.CV, cs.CY

发布日期: 2026-04-21

备注: An earlier version was presented at #SMSociety 2024 (London)

💡 一句话要点

利用多模态LLM分析Instagram政治宣传：提升视觉政治传播分析能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 大型语言模型 视觉政治传播 社交媒体分析 人脸识别 人数统计 计算机视觉

📋 核心要点

现有方法在分析社交媒体上的视觉政治传播内容时，面临着识别精度和可扩展性的挑战。
论文提出利用多模态大型语言模型（GPT-4o）来提升视觉政治传播内容分析的准确性和效率。
实验结果表明，GPT-4o在人脸识别和人数统计方面显著优于传统计算机视觉模型，F1值分别达到0.89和0.86。

📝 摘要（中文）

本文提出了一项计算案例研究，旨在评估专用机器学习模型和新兴多模态大型语言模型在视觉政治传播（VPC）分析中的能力。研究聚焦于2021年德国联邦选举期间Instagram Stories和帖子中集中的可见性，比较了传统计算机视觉模型（FaceNet512、RetinaFace、Google Cloud Vision）与多模态大型语言模型（GPT-4o）在识别领先政治家和统计图像中人数方面的性能。结果表明，GPT-4o优于其他模型，在Stories中的人脸识别和人数统计方面分别实现了0.89和0.86的宏平均F1分数。这些发现证明了先进AI系统在扩展和改进政治传播中的视觉内容分析方面的潜力，同时也强调了未来研究的方法论考虑。

🔬 方法详解

问题定义：论文旨在解决在社交媒体平台（如Instagram）上大规模分析视觉政治传播内容的问题。现有方法，如传统的计算机视觉模型（FaceNet512、RetinaFace、Google Cloud Vision），在处理复杂场景、遮挡、光照变化等情况时，识别精度和泛化能力有限，难以满足大规模分析的需求。此外，现有方法通常需要针对特定任务进行训练，缺乏通用性和灵活性。

核心思路：论文的核心思路是利用多模态大型语言模型（LLM）的强大能力，将视觉信息与语言信息相结合，从而更准确、更鲁棒地理解和分析视觉政治传播内容。通过利用LLM的上下文理解和推理能力，可以克服传统计算机视觉模型在处理复杂场景时的局限性。

技术框架：整体框架包括数据收集、模型选择与配置、以及性能评估三个主要阶段。首先，从Instagram收集2021年德国联邦选举期间的Stories和帖子数据。然后，选择GPT-4o作为多模态LLM，并与FaceNet512、RetinaFace、Google Cloud Vision等传统计算机视觉模型进行比较。最后，使用宏平均F1分数等指标评估模型在人脸识别和人数统计任务上的性能。

关键创新：论文最重要的技术创新点在于将多模态LLM应用于视觉政治传播分析领域，并证明了其优于传统计算机视觉模型。与现有方法相比，GPT-4o能够更好地理解图像中的上下文信息，从而提高识别精度和鲁棒性。此外，GPT-4o具有更强的通用性和灵活性，可以应用于不同的视觉分析任务，而无需针对特定任务进行重新训练。

关键设计：论文的关键设计包括选择GPT-4o作为多模态LLM，并将其与传统计算机视觉模型进行比较。在实验中，使用了宏平均F1分数作为评估指标，以综合考虑模型的精确率和召回率。此外，论文还关注了数据收集和预处理过程，以确保数据的质量和代表性。

🖼️ 关键图片

📊 实验亮点

GPT-4o在人脸识别和人数统计任务中显著优于传统计算机视觉模型。在Instagram Stories数据集中，GPT-4o的人脸识别宏平均F1分数为0.89，人数统计宏平均F1分数为0.86，明显高于FaceNet512、RetinaFace和Google Cloud Vision等基线模型。这表明多模态LLM在视觉政治传播分析中具有巨大的潜力。

🎯 应用场景

该研究成果可应用于大规模社交媒体内容分析、政治宣传监测、舆情分析、虚假信息检测等领域。通过自动识别和分析政治人物的视觉内容，可以帮助研究人员、媒体和公众更好地了解政治宣传策略、评估政治影响，并及时发现和应对虚假信息。

📄 摘要（原文）

This paper presents a computational case study that evaluates the capabilities of specialized machine learning models and emerging multimodal large language models for Visual Political Communication (VPC) analysis. Focusing on concentrated visibility in Instagram stories and posts during the 2021 German federal election campaign, we compare the performance of traditional computer vision models (FaceNet512, RetinaFace, Google Cloud Vision) with a multimodal large language model (GPT-4o) in identifying front-runner politicians and counting individuals in images. GPT-4o outperformed the other models, achieving a macro F1-score of 0.89 for face recognition and 0.86 for person counting in stories. These findings demonstrate the potential of advanced AI systems to scale and refine visual content analysis in political communication while highlighting methodological considerations for future research.

Seeing Candidates at Scale: Multimodal LLMs for Visual Political Communication on Instagram

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理