Linked Multi-Model Data on Russian Domestic and Foreign Policy Speeches

📄 arXiv: 2605.15886v1 📥 PDF

作者: Daria Blinova, Gayathri Emuru, Rakesh Emuru, Kushagradheer Shridheer Srivastava, Mina Rulis, Sunita Chandrasekaran, Benjamin E. Bagozzi

分类: cs.CL

发布日期: 2026-05-15


💡 一句话要点

构建俄罗斯政务多模态关联数据集,促进政治传播研究与LLM应用。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态数据集 政治传播 俄罗斯政治 自然语言处理 图像分析 主题建模 大型语言模型

📋 核心要点

  1. 现有专制政治研究缺乏高质量的多模态数据,限制了对政治传播的深入分析。
  2. 构建包含文本、图像和元数据的关联数据集,并进行多模态主题建模,提供丰富标注。
  3. 该数据集支持多模态政治传播分析,并为社会科学研究和LLM应用提供测试平台。

📝 摘要(中文)

本文介绍了一个俄罗斯政府互联多模态政治传播数据集,旨在解决现有专制政治背景下社交文本和图像数据可用性不足的问题。该数据集包含克里姆林宫和俄罗斯外交部高级官员发表的数十年官方演讲的大型语料库。对于每次演讲,我们提供俄语和英语文本、相关的图像和标题(如果可用),以及统一的元数据,包括日期、演讲者、地理位置和官方政府内容标签。唯一的标识符将图像链接到演讲,并对齐同一通信文本的俄语和英语版本。我们进一步使用经过验证的主题注释来增强这些链接的数据集,这些注释是针对演讲文本和演讲图像生成的,通过基于 Transformer 的多模态主题建模,并由俄罗斯政治专家进行改进。由此产生的数据资源支持对(专制)政治传播的多模态、多语言、时间或空间分析,并为社会科学研究和政治领域的大型语言模型(LLM)应用提供了一个有价值的试验平台。

🔬 方法详解

问题定义:现有研究在分析俄罗斯等专制国家的政治传播时,面临着数据稀缺和模态单一的问题。缺乏高质量的、包含文本、图像等多模态信息的数据集,使得研究人员难以全面理解政治宣传和舆论引导的机制。现有方法也难以有效利用多模态信息进行深入分析。

核心思路:本文的核心思路是构建一个多模态关联数据集,包含俄罗斯政府高级官员的演讲文本、相关图像以及丰富的元数据。通过将不同模态的数据进行关联,并进行多模态主题建模,可以更全面地理解政治传播的内容和策略。

技术框架:该数据集构建流程主要包括以下几个阶段:1) 数据收集:收集俄罗斯政府高级官员的演讲文本、图像和元数据。2) 数据清洗和预处理:对文本进行清洗和翻译,对图像进行处理,并统一元数据格式。3) 数据关联:使用唯一标识符将图像链接到演讲,并对齐俄语和英语版本的文本。4) 多模态主题建模:使用基于 Transformer 的模型对文本和图像进行主题建模,并由专家进行验证和改进。

关键创新:该论文的关键创新在于构建了一个高质量的多模态关联数据集,并将其应用于政治传播研究。该数据集不仅包含文本信息,还包含图像信息,并进行了多模态主题建模,为研究人员提供了更丰富的数据资源和分析工具。此外,该数据集还特别关注专制国家的政治传播,填补了相关研究领域的空白。

关键设计:在多模态主题建模方面,论文采用了基于 Transformer 的模型,并针对政治传播的特点进行了优化。具体的技术细节未知,但强调了专家验证的重要性,以确保主题标注的准确性和可靠性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文构建了一个包含数十年俄罗斯政府高级官员演讲的多模态数据集,包括俄语和英语文本、相关图像和元数据。通过多模态主题建模,为每个演讲和图像生成了经过专家验证的主题标签。该数据集为研究俄罗斯政治传播和训练政治领域LLM提供了宝贵资源。

🎯 应用场景

该数据集可应用于政治学、传播学、社会学等领域的研究,例如分析俄罗斯政府的宣传策略、舆论引导方式以及公众对政治信息的反应。此外,该数据集还可用于训练大型语言模型,提高其在政治领域的理解和生成能力,例如用于生成政治新闻摘要、分析政治人物的立场等。该数据集的发布将促进对专制国家政治传播的深入研究。

📄 摘要(原文)

This paper introduces a dataset of interlinked multimodal political communications from the Russian government, addressing persistent deficiencies in the availability of social text- and image-based data for authoritarian politics contexts. The dataset comprises two large corpora of official speeches delivered by senior actors within the Kremlin and the Russian Ministry of Foreign Affairs over multiple decades. For each speech, we provide Russian- and English-language texts, associated images and captions where available, and harmonized metadata including (e.g.) dates, speakers, (geo)locations, and official government content tags. Unique identifiers link images to speeches and align Russian and English versions of the same communication texts. We further augment these linked datasets with validated topical annotations for both speech texts and speech images, which are generated via transformer-based multimodal topic modeling and refined by a Russian politics expert. The resulting data resources support multimodal, multilingual, temporal, and/or spatial analyses of (authoritarian) political communication and offer a valuable testbed for social science research and large language model (LLM) applications in political domains.