GateNLP at SemEval-2025 Task 10: Hierarchical Three-Step Prompting for Multilingual Narrative Classification

作者: Iknoor Singh, Carolina Scarton, Kalina Bontcheva

分类: cs.CL

发布日期: 2025-05-28

🔗 代码/项目: GITHUB

💡 一句话要点

提出分层三步提示（H3Prompt）方法，用于多语言叙事分类，并在SemEval-2025任务中取得领先。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 叙事分类 多语言处理 大型语言模型 分层提示 自然语言处理

📋 核心要点

当前在线信息爆炸，虚假信息泛滥，自动分析方法亟待加强，叙事分类对信息研究至关重要。
论文提出分层三步提示（H3Prompt）方法，利用LLM逐步确定领域、主要叙事和子叙事。
该方法在SemEval 2025 Task 10 Subtask 2英语测试集上排名第一，验证了其有效性。

📝 摘要（中文）

在线新闻的激增和虚假信息的日益传播，需要强大的自动数据分析方法。叙事分类正成为一项重要的任务，因为识别在线内容对于事实核查员、政策制定者和其他信息研究专业人员至关重要。本文介绍了我们在SemEval 2025 Task 10 Subtask 2中的方法，该子任务旨在将新闻文章分类到预定义的两级分类体系中，该体系包含跨多种语言的主要叙事和子叙事。我们提出了一种用于多语言叙事分类的分层三步提示（H3Prompt）方法。我们的方法遵循一个三步大型语言模型（LLM）提示策略，模型首先将文章分类到两个领域之一（乌克兰-俄罗斯战争或气候变化），然后识别最相关的主要叙事，最后分配子叙事。我们的方法在全球28个竞争团队中，在英语测试集上获得了第一名。代码可在https://github.com/GateNLP/H3Prompt 获取。

🔬 方法详解

问题定义：论文旨在解决多语言新闻文章的叙事分类问题，即如何将新闻文章自动分类到预定义的两级叙事体系（主要叙事和子叙事）中。现有方法在处理多语言和复杂叙事结构时可能存在不足，难以准确捕捉文章的核心主题和细粒度信息。

核心思路：论文的核心思路是利用大型语言模型（LLM）的强大理解和推理能力，通过分层提示的方式，逐步引导模型识别文章的领域、主要叙事和子叙事。这种分层方法能够将复杂的分类任务分解为多个简单的子任务，降低了模型的学习难度，提高了分类的准确性和效率。

技术框架：H3Prompt方法包含三个主要步骤：1) 领域分类：首先，模型将文章分类到预定义的领域（例如，乌克兰-俄罗斯战争或气候变化）。2) 主要叙事分类：然后，模型在已确定的领域内，识别最相关的主要叙事。3) 子叙事分类：最后，模型根据主要叙事，进一步分配子叙事。整个流程通过精心设计的提示语（prompts）来引导LLM的推理过程。

关键创新：该方法最重要的创新点在于其分层三步提示策略。与传统的单步分类方法相比，H3Prompt能够更有效地利用LLM的知识和推理能力，逐步缩小搜索空间，提高分类的准确性。此外，该方法具有良好的跨语言适应性，能够处理多种语言的新闻文章。

关键设计：论文中关键的设计包括：1) 领域选择：根据任务定义，选择了乌克兰-俄罗斯战争和气候变化两个领域。2) 提示语设计：针对每个步骤，设计了清晰、简洁的提示语，引导LLM进行分类。3) 模型选择：使用了大型语言模型作为基础模型，利用其强大的语言理解和生成能力。具体的参数设置和损失函数等技术细节在论文中可能未详细描述，属于未知信息。

📊 实验亮点

H3Prompt方法在SemEval 2025 Task 10 Subtask 2的英语测试集上取得了第一名的成绩，超越了全球28个竞争团队。这一结果表明，该方法在多语言叙事分类任务中具有显著的优势和竞争力。具体的性能数据和提升幅度需要在原始论文或比赛报告中查找，目前未知。

🎯 应用场景

该研究成果可应用于自动新闻分类、舆情监控、虚假信息检测等领域。通过自动识别新闻文章的叙事主题，可以帮助用户快速了解新闻事件的背景和发展趋势，提高信息获取效率。此外，该方法还可以用于分析不同媒体的报道倾向，揭示潜在的宣传和操纵行为，为维护社会稳定和公共利益提供支持。

📄 摘要（原文）

The proliferation of online news and the increasing spread of misinformation necessitate robust methods for automatic data analysis. Narrative classification is emerging as a important task, since identifying what is being said online is critical for fact-checkers, policy markers and other professionals working on information studies. This paper presents our approach to SemEval 2025 Task 10 Subtask 2, which aims to classify news articles into a pre-defined two-level taxonomy of main narratives and sub-narratives across multiple languages. We propose Hierarchical Three-Step Prompting (H3Prompt) for multilingual narrative classification. Our methodology follows a three-step Large Language Model (LLM) prompting strategy, where the model first categorises an article into one of two domains (Ukraine-Russia War or Climate Change), then identifies the most relevant main narratives, and finally assigns sub-narratives. Our approach secured the top position on the English test set among 28 competing teams worldwide. The code is available at https://github.com/GateNLP/H3Prompt.

GateNLP at SemEval-2025 Task 10: Hierarchical Three-Step Prompting for Multilingual Narrative Classification

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理