GateNLP at SemEval-2025 Task 10: Hierarchical Three-Step Prompting for Multilingual Narrative Classification

📄 arXiv: 2505.22867v1 📥 PDF

作者: Iknoor Singh, Carolina Scarton, Kalina Bontcheva

分类: cs.CL

发布日期: 2025-05-28

🔗 代码/项目: GITHUB


💡 一句话要点

提出分层三步提示(H3Prompt)方法,用于多语言叙事分类,并在SemEval-2025任务中取得领先。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 叙事分类 多语言处理 大型语言模型 分层提示 自然语言处理

📋 核心要点

  1. 当前在线信息爆炸,虚假信息泛滥,自动分析方法亟待加强,叙事分类对信息研究至关重要。
  2. 论文提出分层三步提示(H3Prompt)方法,利用LLM逐步确定领域、主要叙事和子叙事。
  3. 该方法在SemEval 2025 Task 10 Subtask 2英语测试集上排名第一,验证了其有效性。

📝 摘要(中文)

在线新闻的激增和虚假信息的日益传播,需要强大的自动数据分析方法。叙事分类正成为一项重要的任务,因为识别在线内容对于事实核查员、政策制定者和其他信息研究专业人员至关重要。本文介绍了我们在SemEval 2025 Task 10 Subtask 2中的方法,该子任务旨在将新闻文章分类到预定义的两级分类体系中,该体系包含跨多种语言的主要叙事和子叙事。我们提出了一种用于多语言叙事分类的分层三步提示(H3Prompt)方法。我们的方法遵循一个三步大型语言模型(LLM)提示策略,模型首先将文章分类到两个领域之一(乌克兰-俄罗斯战争或气候变化),然后识别最相关的主要叙事,最后分配子叙事。我们的方法在全球28个竞争团队中,在英语测试集上获得了第一名。代码可在https://github.com/GateNLP/H3Prompt 获取。

🔬 方法详解

问题定义:论文旨在解决多语言新闻文章的叙事分类问题,即如何将新闻文章自动分类到预定义的两级叙事体系(主要叙事和子叙事)中。现有方法在处理多语言和复杂叙事结构时可能存在不足,难以准确捕捉文章的核心主题和细粒度信息。

核心思路:论文的核心思路是利用大型语言模型(LLM)的强大理解和推理能力,通过分层提示的方式,逐步引导模型识别文章的领域、主要叙事和子叙事。这种分层方法能够将复杂的分类任务分解为多个简单的子任务,降低了模型的学习难度,提高了分类的准确性和效率。

技术框架:H3Prompt方法包含三个主要步骤:1) 领域分类:首先,模型将文章分类到预定义的领域(例如,乌克兰-俄罗斯战争或气候变化)。2) 主要叙事分类:然后,模型在已确定的领域内,识别最相关的主要叙事。3) 子叙事分类:最后,模型根据主要叙事,进一步分配子叙事。整个流程通过精心设计的提示语(prompts)来引导LLM的推理过程。

关键创新:该方法最重要的创新点在于其分层三步提示策略。与传统的单步分类方法相比,H3Prompt能够更有效地利用LLM的知识和推理能力,逐步缩小搜索空间,提高分类的准确性。此外,该方法具有良好的跨语言适应性,能够处理多种语言的新闻文章。

关键设计:论文中关键的设计包括:1) 领域选择:根据任务定义,选择了乌克兰-俄罗斯战争和气候变化两个领域。2) 提示语设计:针对每个步骤,设计了清晰、简洁的提示语,引导LLM进行分类。3) 模型选择:使用了大型语言模型作为基础模型,利用其强大的语言理解和生成能力。具体的参数设置和损失函数等技术细节在论文中可能未详细描述,属于未知信息。

📊 实验亮点

H3Prompt方法在SemEval 2025 Task 10 Subtask 2的英语测试集上取得了第一名的成绩,超越了全球28个竞争团队。这一结果表明,该方法在多语言叙事分类任务中具有显著的优势和竞争力。具体的性能数据和提升幅度需要在原始论文或比赛报告中查找,目前未知。

🎯 应用场景

该研究成果可应用于自动新闻分类、舆情监控、虚假信息检测等领域。通过自动识别新闻文章的叙事主题,可以帮助用户快速了解新闻事件的背景和发展趋势,提高信息获取效率。此外,该方法还可以用于分析不同媒体的报道倾向,揭示潜在的宣传和操纵行为,为维护社会稳定和公共利益提供支持。

📄 摘要(原文)

The proliferation of online news and the increasing spread of misinformation necessitate robust methods for automatic data analysis. Narrative classification is emerging as a important task, since identifying what is being said online is critical for fact-checkers, policy markers and other professionals working on information studies. This paper presents our approach to SemEval 2025 Task 10 Subtask 2, which aims to classify news articles into a pre-defined two-level taxonomy of main narratives and sub-narratives across multiple languages. We propose Hierarchical Three-Step Prompting (H3Prompt) for multilingual narrative classification. Our methodology follows a three-step Large Language Model (LLM) prompting strategy, where the model first categorises an article into one of two domains (Ukraine-Russia War or Climate Change), then identifies the most relevant main narratives, and finally assigns sub-narratives. Our approach secured the top position on the English test set among 28 competing teams worldwide. The code is available at https://github.com/GateNLP/H3Prompt.