SCICONVBENCH: Benchmarking LLMs on Multi-Turn Clarification for Task Formulation in Computational Science

📄 arXiv: 2605.18630v1 📥 PDF

作者: Nithin Somasekharan, Youssef Hassan, Shiyao Lin, Gihan Panapitiya, Patrick Emami, Anurag Acharya, Sameera Horawalavithana, Shaowu Pan

分类: cs.AI, physics.comp-ph

发布日期: 2026-05-18

🔗 代码/项目: GITHUB


💡 一句话要点

SCICONVBENCH:用于评估LLM在计算科学中多轮澄清任务构建能力的基准测试。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 科学AI助手 多轮对话 任务构建 基准测试

📋 核心要点

  1. 现有LLM评估侧重于已明确定义的科学问题,忽略了实际科研中任务构建前澄清用户意图的关键步骤。
  2. SCICONVBENCH通过多轮对话,评估LLM在消除歧义和解决不一致性方面的能力,从而完善科学任务的构建。
  3. 实验表明,现有模型在不一致性解决方面表现尚可,但在消除歧义方面仍有较大提升空间,且常有未基于对话的假设。

📝 摘要(中文)

大型语言模型(LLMs)越来越多地被部署为科学AI助手。现有的基准测试主要评估LLMs在知识检索、推理、代码生成和工具使用方面的能力。然而,这些评估通常假设科学问题已经明确,而实际的科学辅助往往始于不明确的用户请求,需要通过对话进行完善,然后才能可靠地进行计算、分析或实验。我们提出了SCICONVBENCH,这是一个用于评估LLMs在计算科学任务构建中多轮澄清能力的基准测试,涵盖流体力学、固体力学、材料科学和偏微分方程(PDEs)四个领域。SCICONVBENCH针对两种互补的能力:引出缺失信息(消除歧义)以及检测和纠正包含内部矛盾信息的错误请求(不一致性解决)。我们的基准测试将结构化的任务本体与基于规则的评估框架相结合,从而可以系统地衡量LLM在三个维度上的性能:澄清行为、对话基础和最终规范的保真度。目前的先进模型在不一致性解决方面表现相对较好,但即使是最好的模型也仅能解决流体力学中52.7%的消除歧义案例。我们还发现,先进的LLMs经常做出无声的假设并执行未基于与用户对话的隐式规范修复。SCICONVBENCH为评估可靠的计算科学助手所需的上游对话推理奠定了基础。代码和数据可在https://github.com/csml-rpi/SciConvBench找到。

🔬 方法详解

问题定义:现有的大语言模型(LLMs)在科学应用中,通常假设用户提出的问题是清晰明确的。然而,在实际的科研场景中,用户最初提出的问题往往是不完备的、模糊的,甚至包含内在矛盾。因此,如何让LLM通过多轮对话,澄清用户的真实意图,构建出准确的任务规范,是一个亟待解决的问题。现有的基准测试忽略了这一关键的“任务构建”阶段,无法全面评估LLM在科学应用中的能力。

核心思路:SCICONVBENCH的核心思路是模拟真实的科研对话场景,通过多轮交互,评估LLM在澄清用户意图方面的能力。它将任务构建过程分解为两个关键子任务:消除歧义(disambiguation),即通过提问来获取缺失的信息;解决不一致性(inconsistency resolution),即识别并纠正用户请求中存在的矛盾信息。通过对这两个子任务的评估,可以更全面地了解LLM在任务构建方面的能力。

技术框架:SCICONVBENCH包含以下几个主要组成部分:1) 四个计算科学领域(流体力学、固体力学、材料科学和偏微分方程)的任务集合;2) 结构化的任务本体,用于定义任务的属性和约束;3) 基于规则的评估框架,用于衡量LLM在澄清行为、对话基础和最终规范保真度三个维度上的性能。整个流程是:用户提出一个不明确或不一致的科学问题,LLM通过多轮对话尝试澄清,最终生成一个明确的任务规范,然后通过评估框架来评估LLM的性能。

关键创新:SCICONVBENCH的关键创新在于它关注了科学任务构建的上游对话推理过程,填补了现有基准测试的空白。它不仅评估LLM解决问题的能力,更关注LLM理解问题、澄清需求的能力。此外,SCICONVBENCH还提供了一个结构化的任务本体和基于规则的评估框架,使得对LLM性能的评估更加系统化和可重复。与现有方法相比,SCICONVBENCH更贴近实际科研场景,能够更真实地反映LLM在科学应用中的能力。

关键设计:SCICONVBENCH的关键设计包括:1) 任务本体的设计,需要充分考虑各个科学领域的特点,定义清晰的任务属性和约束;2) 对话策略的设计,需要引导LLM有效地提问,获取关键信息,并避免冗余或无意义的对话;3) 评估指标的设计,需要全面衡量LLM在澄清行为、对话基础和最终规范保真度三个维度上的性能,例如,澄清行为可以考察LLM提问的有效性和效率,对话基础可以考察LLM是否基于对话内容进行推理,最终规范保真度可以考察LLM生成的任务规范是否符合用户的真实意图。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,目前的先进LLM在不一致性解决方面表现相对较好,但在消除歧义方面仍有较大提升空间。例如,即使是最好的模型也仅能解决流体力学中52.7%的消除歧义案例。此外,研究还发现,LLM经常做出未基于与用户对话的隐式假设和规范修复,这表明LLM在对话推理方面仍存在不足。

🎯 应用场景

SCICONVBENCH的研究成果可应用于开发更智能、更可靠的科学AI助手,帮助科研人员更高效地进行科学研究。通过多轮对话澄清任务需求,LLM可以更好地理解用户的意图,避免因误解或信息不完整而导致的错误结果。这对于提高科研效率、降低科研成本具有重要意义,并有望加速科学发现的进程。

📄 摘要(原文)

Large Language Models (LLMs) are increasingly deployed as scientific AI as- sistants, and a growing body of benchmarks evaluates their capabilities across knowledge retrieval, reasoning, code generation, and tool use. These evaluations, however, typically assume the scientific problem is already well-posed, whereas practical scientific assistance often begins with an ill-posed user request that must be refined through dialogue before any computation, analysis, or experiment can be carried out reliably. We introduce SCICONVBENCH, a benchmark for multi- turn clarification in scientific task formulation across four computational science problem domains: fluid mechanics, solid mechanics, materials science, and par- tial differential equations (PDEs). SCICONVBENCH targets two complementary capabilities: eliciting missing information (disambiguation) and detecting and correcting erroneous requests containing internally contradictory information (in- consistency resolution). Our benchmark pairs a structured task ontology with a rubric-based evaluation framework, enabling systematic measurement of LLM per- formance across three dimensions: clarification behavior, conversational grounding, and final-specification fidelity. Current frontier models perform relatively well on inconsistency resolution, but even the best model resolves only 52.7% of the disambiguation cases in fluid mechanics. We further find that frontier LLMs fre- quently make silent assumptions and perform implicit specification repairs that are not grounded in the conversation with users. SCICONVBENCH establishes a foundation for evaluating the upstream conversational reasoning that a reliable computational science assistant requires. The code and data can be found at https://github.com/csml-rpi/SciConvBench.