CienaLLM: Generative Climate-Impact Extraction from News Articles with Autoregressive LLMs
作者: Javier Vela-Tambo, Jorge Gracia, Fernando Dominguez-Castro
分类: cs.CL
发布日期: 2025-12-22
💡 一句话要点
CienaLLM:利用自回归LLM从新闻文章中生成式提取气候影响信息
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 气候影响提取 生成式信息提取 大型语言模型 零样本学习 模式引导 新闻文章分析 自然语言处理
📋 核心要点
- 现有方法难以大规模地从异构新闻文章中提取结构化的气候影响信息,限制了对气候灾害社会经济影响的理解和监测。
- CienaLLM框架利用开放权重LLM进行零样本信息提取,通过可配置的提示、模式和多步骤流水线,实现灵活的信息抽取。
- 实验表明,更大的模型性能更强,量化可显著提升效率,响应解析步骤有效消除格式错误,CienaLLM性能与监督基线相当。
📝 摘要(中文)
为了理解和监测气候灾害的社会经济影响,需要大规模地从异构的新闻文章中提取结构化信息。为此,我们开发了CienaLLM,这是一个基于模式引导的生成式信息提取的模块化框架。CienaLLM使用开放权重的大型语言模型(LLM)从新闻文章中进行零样本信息提取,并支持可配置的提示和输出模式、多步骤流水线以及云或本地推理。为了系统地评估LLM家族、模型大小、精度方案和提示策略的选择如何影响性能,我们对模型、精度和提示工程技术进行了大规模的析因研究。额外的响应解析步骤几乎消除了格式错误,同时保持了准确性;较大的模型提供了最强大和最稳定的性能,而量化在精度上做出了适度的权衡,从而实现了显著的效率提升;提示策略显示出异构的、特定于模型的效果。CienaLLM在从西班牙新闻中提取干旱影响的准确性方面与监督基线相匹配或优于监督基线,尽管推理成本更高。虽然在干旱方面进行了评估,但这种模式驱动和模型无关的设计适合通过编辑提示和模式而不是重新训练来适应相关的信息提取任务(例如,其他灾害、部门或语言)。我们发布了代码、配置和模式,以支持可重复使用。
🔬 方法详解
问题定义:论文旨在解决从大量新闻文章中自动提取气候变化影响信息的难题。现有方法通常依赖于人工标注数据进行监督学习,成本高昂且难以适应新的灾害类型或语言。此外,现有方法在处理异构新闻数据时,提取的信息结构化程度不足,难以进行深入分析和决策支持。
核心思路:论文的核心思路是利用大型语言模型(LLM)的强大生成能力,通过模式引导的生成式信息提取方法,实现零样本或少样本的信息提取。通过精心设计的提示(Prompt)和输出模式(Schema),引导LLM生成结构化的气候影响信息,从而避免了大量的人工标注工作。
技术框架:CienaLLM框架包含以下主要模块:1) 新闻文章输入:接收来自不同来源的新闻文章;2) 提示工程:根据预定义的模式,生成针对特定LLM的提示;3) LLM推理:使用LLM对新闻文章进行信息提取,生成结构化输出;4) 响应解析:对LLM的输出进行解析和格式化,消除格式错误;5) 结构化信息输出:输出提取的气候影响信息,例如灾害类型、影响范围、受影响人群等。
关键创新:CienaLLM的关键创新在于其模式引导的生成式信息提取方法。与传统的监督学习方法相比,CienaLLM无需大量标注数据,即可实现对气候影响信息的有效提取。此外,CienaLLM的模块化设计使其易于扩展和定制,可以适应不同的灾害类型、语言和领域。
关键设计:CienaLLM的关键设计包括:1) 可配置的提示和输出模式:允许用户根据具体需求定制信息提取的目标和格式;2) 多步骤流水线:支持复杂的信息提取流程,例如先提取关键实体,再提取实体之间的关系;3) 响应解析步骤:通过规则或模型对LLM的输出进行后处理,消除格式错误,提高信息提取的准确性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CienaLLM在从西班牙新闻中提取干旱影响的准确性方面与监督基线相匹配或优于监督基线。更大的模型提供了更强大和稳定的性能,而量化可以在精度上做出适度的权衡,从而实现显著的效率提升。响应解析步骤几乎消除了格式错误,同时保持了准确性。
🎯 应用场景
CienaLLM可应用于气候变化影响评估、灾害风险管理、政策制定等领域。通过自动提取新闻报道中的气候影响信息,可以帮助政府、企业和研究机构更好地了解气候变化的社会经济影响,制定更有效的应对策略,并为公众提供更准确的气候信息。
📄 摘要(原文)
Understanding and monitoring the socio-economic impacts of climate hazards requires extracting structured information from heterogeneous news articles on a large scale. To that end, we have developed CienaLLM, a modular framework based on schema-guided Generative Information Extraction. CienaLLM uses open-weight Large Language Models for zero-shot information extraction from news articles, and supports configurable prompts and output schemas, multi-step pipelines, and cloud or on-premise inference. To systematically assess how the choice of LLM family, size, precision regime, and prompting strategy affect performance, we run a large factorial study in models, precisions, and prompt engineering techniques. An additional response parsing step nearly eliminates format errors while preserving accuracy; larger models deliver the strongest and most stable performance, while quantization offers substantial efficiency gains with modest accuracy trade-offs; and prompt strategies show heterogeneous, model-specific effects. CienaLLM matches or outperforms the supervised baseline in accuracy for extracting drought impacts from Spanish news, although at a higher inference cost. While evaluated in droughts, the schema-driven and model-agnostic design is suitable for adapting to related information extraction tasks (e.g., other hazards, sectors, or languages) by editing prompts and schemas rather than retraining. We release code, configurations, and schemas to support reproducible use.