S2SServiceBench: A Multimodal Benchmark for Last-Mile S2S Climate Services

📄 arXiv: 2602.14017v1 📥 PDF

作者: Chenyue Li, Wen Deng, Zhuotao Sun, Mengxi Jin, Hanzhe Cui, Han Li, Shentong Li, Man Kit Yu, Ming Long Lai, Yuhao Yang, Mengqian Lu, Binhang Yuan

分类: cs.LG

发布日期: 2026-02-15

备注: 18 pages, 3 figures, 6 tables


💡 一句话要点

S2SServiceBench:用于末端S2S气候服务的多模态基准测试

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 气候服务 基准测试 大型语言模型 S2S预测 决策支持 不确定性推理

📋 核心要点

  1. 现有S2S预测难以转化为实际可用的气候服务,存在“最后一公里”难题,需要多模态理解和不确定性下的决策推理。
  2. 提出S2SServiceBench基准测试,包含来自实际气候服务系统的多模态数据,用于评估MLLM和代理在S2S服务中的性能。
  3. 通过基准测试,揭示了现有MLLM在S2S服务图理解和推理方面的挑战,并为未来气候服务代理的构建提供了指导。

📝 摘要(中文)

次季节到季节(S2S)预测在为气候适应能力和可持续性提供关键的数周到数月的规划窗口方面发挥着重要作用,但日益增长的瓶颈是“最后一公里”的差距:将科学预测转化为可信、可操作的气候服务,这需要可靠的多模态理解和不确定性下的面向决策的推理。同时,多模态大型语言模型(MLLM)和相应的代理范式在支持各种工作流程方面取得了快速进展,但它们是否能够可靠地从运营服务产品(例如,可操作的信号理解、决策交接和决策分析与规划)中生成决策交付成果(在不确定性下)仍不清楚。我们引入了S2SServiceBench,这是一个用于末端S2S气候服务的多模态基准测试,它从运营气候服务系统中提取,用于评估这种能力。S2SServiceBench涵盖10个服务产品,总共约150多个专家选择的案例,涵盖六个应用领域——农业、灾害、能源、金融、健康和航运。每个案例都在三个服务级别上实例化,在气候适应能力和可持续性应用中产生大约500个任务和1,000多个评估项目。使用S2SServiceBench,我们对最先进的MLLM和代理进行基准测试,并分析跨产品和服务级别的性能,揭示了S2S服务图理解和推理方面持续存在的挑战——即可操作的信号理解、将不确定性转化为可执行的交接,以及针对动态危害的稳定、基于证据的分析和规划——同时为构建未来的气候服务代理提供可操作的指导。

🔬 方法详解

问题定义:论文旨在解决次季节到季节(S2S)预测在实际应用中存在的“最后一公里”问题。现有方法难以将科学预测转化为可信、可操作的气候服务,尤其是在多模态数据理解和不确定性推理方面存在不足。这阻碍了气候适应能力和可持续性决策的有效制定。

核心思路:论文的核心思路是构建一个多模态基准测试S2SServiceBench,用于评估多模态大型语言模型(MLLM)和代理在S2S气候服务中的性能。通过在真实场景下测试MLLM,可以识别其在信号理解、不确定性处理和决策支持方面的能力,从而指导未来气候服务代理的开发。

技术框架:S2SServiceBench包含以下几个关键组成部分:1) 从实际气候服务系统中提取的10个服务产品,涵盖农业、灾害等六个应用领域;2) 150多个专家选择的案例,每个案例在三个服务级别上实例化,形成约500个任务;3) 1000多个评估项目,用于全面评估MLLM的性能。整体流程是:输入多模态数据(例如,气候预测图表、文本描述),MLLM生成决策交付成果,然后通过评估项目进行评估。

关键创新:S2SServiceBench的关键创新在于其真实性和全面性。它不是一个合成数据集,而是从实际运营的气候服务系统中提取的,因此更具代表性和挑战性。此外,它涵盖了多个应用领域和服务级别,提供了对MLLM性能的全面评估。

关键设计:S2SServiceBench的设计考虑了以下关键因素:1) 多模态数据:包含气候预测图表、文本描述等多种模态的数据;2) 服务级别:每个案例都在三个服务级别上实例化,以评估MLLM在不同复杂程度下的性能;3) 评估指标:设计了多个评估指标,用于全面评估MLLM在信号理解、不确定性处理和决策支持方面的能力。

📊 实验亮点

通过S2SServiceBench对现有MLLM进行基准测试,发现其在S2S服务图理解和推理方面存在挑战,尤其是在可操作的信号理解、不确定性处理和基于证据的分析规划方面。实验结果表明,现有模型难以稳定地生成高质量的决策交付成果,需要进一步改进。

🎯 应用场景

该研究成果可应用于气候适应、灾害预警、农业生产、能源管理、金融决策、公共健康和航运等领域。通过提高气候服务的可靠性和可操作性,帮助决策者更好地应对气候变化带来的挑战,促进社会的可持续发展。未来,该基准测试可以促进气候服务代理的开发,实现更智能、更高效的气候服务。

📄 摘要(原文)

Subseasonal-to-seasonal (S2S) forecasts play an essential role in providing a decision-critical weeks-to-months planning window for climate resilience and sustainability, yet a growing bottleneck is the last-mile gap: translating scientific forecasts into trusted, actionable climate services, requiring reliable multimodal understanding and decision-facing reasoning under uncertainty. Meanwhile, multimodal large language models (MLLMs) and corresponding agentic paradigms have made rapid progress in supporting various workflows, but it remains unclear whether they can reliably generate decision-making deliverables from operational service products (e.g., actionable signal comprehension, decision-making handoff, and decision analysis & planning) under uncertainty. We introduce S2SServiceBench, a multimodal benchmark for last-mile S2S climate services curated from an operational climate-service system to evaluate this capability. S2SServiceBenchcovers 10 service products with about 150+ expert-selected cases in total, spanning six application domains - Agriculture, Disasters, Energy, Finance, Health, and Shipping. Each case is instantiated at three service levels, yielding around 500 tasks and 1,000+ evaluation items across climate resilience and sustainability applications. Using S2SServiceBench, we benchmark state-of-the-art MLLMs and agents, and analyze performance across products and service levels, revealing persistent challenges in S2S service plot understanding and reasoning - namely, actionable signal comprehension, operationalizing uncertainty into executable handoffs, and stable, evidence-grounded analysis and planning for dynamic hazards-while offering actionable guidance for building future climate-service agents.