SCICONVBENCH: Benchmarking LLMs on Multi-Turn Clarification for Task Formulation in Computational Science

作者: Nithin Somasekharan, Youssef Hassan, Shiyao Lin, Gihan Panapitiya, Patrick Emami, Anurag Acharya, Sameera Horawalavithana, Shaowu Pan

分类: cs.AI, physics.comp-ph

发布日期: 2026-05-18

🔗 代码/项目: GITHUB

💡 一句话要点

SCICONVBENCH：用于评估LLM在计算科学中多轮澄清任务构建能力的基准测试。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 科学AI助手 多轮对话 任务构建 基准测试

📋 核心要点

现有LLM评估侧重于已明确定义的科学问题，忽略了实际科研中任务构建前澄清用户意图的关键步骤。
SCICONVBENCH通过多轮对话，评估LLM在消除歧义和解决不一致性方面的能力，从而完善科学任务的构建。
实验表明，现有模型在不一致性解决方面表现尚可，但在消除歧义方面仍有较大提升空间，且常有未基于对话的假设。

📝 摘要（中文）

大型语言模型（LLMs）越来越多地被部署为科学AI助手。现有的基准测试主要评估LLMs在知识检索、推理、代码生成和工具使用方面的能力。然而，这些评估通常假设科学问题已经明确，而实际的科学辅助往往始于不明确的用户请求，需要通过对话进行完善，然后才能可靠地进行计算、分析或实验。我们提出了SCICONVBENCH，这是一个用于评估LLMs在计算科学任务构建中多轮澄清能力的基准测试，涵盖流体力学、固体力学、材料科学和偏微分方程（PDEs）四个领域。SCICONVBENCH针对两种互补的能力：引出缺失信息（消除歧义）以及检测和纠正包含内部矛盾信息的错误请求（不一致性解决）。我们的基准测试将结构化的任务本体与基于规则的评估框架相结合，从而可以系统地衡量LLM在三个维度上的性能：澄清行为、对话基础和最终规范的保真度。目前的先进模型在不一致性解决方面表现相对较好，但即使是最好的模型也仅能解决流体力学中52.7%的消除歧义案例。我们还发现，先进的LLMs经常做出无声的假设并执行未基于与用户对话的隐式规范修复。SCICONVBENCH为评估可靠的计算科学助手所需的上游对话推理奠定了基础。代码和数据可在https://github.com/csml-rpi/SciConvBench找到。

🔬 方法详解

问题定义：现有的大语言模型（LLMs）在科学应用中，通常假设用户提出的问题是清晰明确的。然而，在实际的科研场景中，用户最初提出的问题往往是不完备的、模糊的，甚至包含内在矛盾。因此，如何让LLM通过多轮对话，澄清用户的真实意图，构建出准确的任务规范，是一个亟待解决的问题。现有的基准测试忽略了这一关键的“任务构建”阶段，无法全面评估LLM在科学应用中的能力。

核心思路：SCICONVBENCH的核心思路是模拟真实的科研对话场景，通过多轮交互，评估LLM在澄清用户意图方面的能力。它将任务构建过程分解为两个关键子任务：消除歧义（disambiguation），即通过提问来获取缺失的信息；解决不一致性（inconsistency resolution），即识别并纠正用户请求中存在的矛盾信息。通过对这两个子任务的评估，可以更全面地了解LLM在任务构建方面的能力。

技术框架：SCICONVBENCH包含以下几个主要组成部分：1) 四个计算科学领域（流体力学、固体力学、材料科学和偏微分方程）的任务集合；2) 结构化的任务本体，用于定义任务的属性和约束；3) 基于规则的评估框架，用于衡量LLM在澄清行为、对话基础和最终规范保真度三个维度上的性能。整个流程是：用户提出一个不明确或不一致的科学问题，LLM通过多轮对话尝试澄清，最终生成一个明确的任务规范，然后通过评估框架来评估LLM的性能。

关键创新：SCICONVBENCH的关键创新在于它关注了科学任务构建的上游对话推理过程，填补了现有基准测试的空白。它不仅评估LLM解决问题的能力，更关注LLM理解问题、澄清需求的能力。此外，SCICONVBENCH还提供了一个结构化的任务本体和基于规则的评估框架，使得对LLM性能的评估更加系统化和可重复。与现有方法相比，SCICONVBENCH更贴近实际科研场景，能够更真实地反映LLM在科学应用中的能力。

关键设计：SCICONVBENCH的关键设计包括：1) 任务本体的设计，需要充分考虑各个科学领域的特点，定义清晰的任务属性和约束；2) 对话策略的设计，需要引导LLM有效地提问，获取关键信息，并避免冗余或无意义的对话；3) 评估指标的设计，需要全面衡量LLM在澄清行为、对话基础和最终规范保真度三个维度上的性能，例如，澄清行为可以考察LLM提问的有效性和效率，对话基础可以考察LLM是否基于对话内容进行推理，最终规范保真度可以考察LLM生成的任务规范是否符合用户的真实意图。

🖼️ 关键图片

📊 实验亮点

实验结果表明，目前的先进LLM在不一致性解决方面表现相对较好，但在消除歧义方面仍有较大提升空间。例如，即使是最好的模型也仅能解决流体力学中52.7%的消除歧义案例。此外，研究还发现，LLM经常做出未基于与用户对话的隐式假设和规范修复，这表明LLM在对话推理方面仍存在不足。

🎯 应用场景

SCICONVBENCH的研究成果可应用于开发更智能、更可靠的科学AI助手，帮助科研人员更高效地进行科学研究。通过多轮对话澄清任务需求，LLM可以更好地理解用户的意图，避免因误解或信息不完整而导致的错误结果。这对于提高科研效率、降低科研成本具有重要意义，并有望加速科学发现的进程。

📄 摘要（原文）

Large Language Models (LLMs) are increasingly deployed as scientific AI as- sistants, and a growing body of benchmarks evaluates their capabilities across knowledge retrieval, reasoning, code generation, and tool use. These evaluations, however, typically assume the scientific problem is already well-posed, whereas practical scientific assistance often begins with an ill-posed user request that must be refined through dialogue before any computation, analysis, or experiment can be carried out reliably. We introduce SCICONVBENCH, a benchmark for multi- turn clarification in scientific task formulation across four computational science problem domains: fluid mechanics, solid mechanics, materials science, and par- tial differential equations (PDEs). SCICONVBENCH targets two complementary capabilities: eliciting missing information (disambiguation) and detecting and correcting erroneous requests containing internally contradictory information (in- consistency resolution). Our benchmark pairs a structured task ontology with a rubric-based evaluation framework, enabling systematic measurement of LLM per- formance across three dimensions: clarification behavior, conversational grounding, and final-specification fidelity. Current frontier models perform relatively well on inconsistency resolution, but even the best model resolves only 52.7% of the disambiguation cases in fluid mechanics. We further find that frontier LLMs fre- quently make silent assumptions and perform implicit specification repairs that are not grounded in the conversation with users. SCICONVBENCH establishes a foundation for evaluating the upstream conversational reasoning that a reliable computational science assistant requires. The code and data can be found at https://github.com/csml-rpi/SciConvBench.

SCICONVBENCH: Benchmarking LLMs on Multi-Turn Clarification for Task Formulation in Computational Science

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理