SC-Arena: A Natural Language Benchmark for Single-Cell Reasoning with Knowledge-Augmented Evaluation

作者: Jiahao Zhao, Feng Jiang, Shaowei Qin, Zhonghui Zhang, Junhao Liu, Guibing Guo, Hamid Alinejad-Rokny, Min Yang

分类: cs.AI

发布日期: 2026-02-26

💡 一句话要点

SC-Arena：面向单细胞推理的自然语言基准，采用知识增强评估

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 单细胞生物学 大语言模型 自然语言处理 知识增强 评估基准

📋 核心要点

现有单细胞生物学LLM评估基准分散、形式单一，且评估指标缺乏生物学解释性，难以有效评估模型在真实场景下的推理能力。
SC-ARENA框架通过虚拟细胞抽象统一评估目标，并设计了五种自然语言任务，以全面评估LLM在单细胞生物学中的推理能力。
知识增强评估方法结合外部知识库，克服了传统评估指标的局限性，确保评估的生物学正确性，并提供可解释的评估依据。

📝 摘要（中文）

大型语言模型（LLMs）越来越多地应用于科学研究，为知识发现和推理提供了新的能力。然而，在单细胞生物学中，通用和专用LLMs的评估实践仍然不足：现有基准在任务中是分散的，采用诸如多项选择分类等与实际使用不同的格式，并且依赖于缺乏可解释性和生物学基础的指标。我们提出了SC-ARENA，这是一个为单细胞基础模型量身定制的自然语言评估框架。SC-ARENA形式化了一个虚拟细胞抽象，通过表示内在属性和基因水平的相互作用来统一评估目标。在这个范例中，我们定义了五个自然语言任务（细胞类型注释、描述生成、细胞生成、扰动预测和科学问答），这些任务探测了细胞生物学中的核心推理能力。为了克服脆弱的字符串匹配指标的局限性，我们引入了知识增强评估，它结合了外部本体、标记数据库和科学文献，以支持生物学上忠实和可解释的判断。对通用和领域专用LLMs的实验和分析表明：（i）在虚拟细胞统一评估范例下，当前模型在生物学上复杂的任务（特别是那些需要机械或因果理解的任务）上表现不均；（ii）我们的知识增强评估框架确保了生物学正确性，提供了可解释的、基于证据的理由，并实现了高区分能力，克服了传统指标的脆弱性和不透明性。因此，SC-Arena为评估单细胞生物学中的LLMs提供了一个统一且可解释的框架，指向了与生物学对齐的、可泛化的基础模型的开发。

🔬 方法详解

问题定义：现有单细胞生物学领域的大语言模型（LLM）评估存在以下痛点：一是基准测试任务分散，缺乏统一的评估框架；二是评估形式（如多项选择）与实际应用场景脱节；三是评估指标依赖字符串匹配，缺乏生物学意义和可解释性，难以准确反映模型在生物学上的推理能力。

核心思路：SC-ARENA的核心思路是构建一个统一的、生物学相关的评估框架，以更真实地评估LLM在单细胞生物学领域的推理能力。该框架通过“虚拟细胞”抽象来统一评估目标，并采用知识增强评估方法，利用外部知识库来提升评估的准确性和可解释性。这样设计的目的是为了克服现有评估方法的局限性，更全面、深入地评估LLM在单细胞生物学中的应用潜力。

技术框架：SC-ARENA框架包含以下主要组成部分： 1. 虚拟细胞抽象：将细胞的内在属性和基因水平的相互作用形式化为一个统一的表示。 2. 自然语言任务：定义了五个自然语言任务，包括细胞类型注释、描述生成、细胞生成、扰动预测和科学问答，用于评估LLM在不同方面的推理能力。 3. 知识增强评估：利用外部本体、标记数据库和科学文献，对LLM的输出进行生物学正确性验证和解释性分析。

关键创新：SC-ARENA的关键创新在于： 1. 统一的虚拟细胞抽象：将不同的单细胞生物学任务统一到一个框架下，便于进行综合评估。 2. 知识增强评估方法：利用外部知识库来提升评估的生物学相关性和可解释性，克服了传统评估指标的局限性。

关键设计： 1. 知识库集成：集成了Gene Ontology (GO)、Cell Ontology (CL)等本体库，以及CellMarker等标记基因数据库，用于知识增强评估。 2. 评估指标：除了传统的字符串匹配指标外，还引入了基于知识库的语义相似度指标，以及基于文献证据的支持度指标。 3. 任务设计：五个自然语言任务的设计充分考虑了单细胞生物学研究中的常见问题和挑战，能够全面评估LLM的推理能力。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在SC-ARENA框架下，现有LLM在生物学复杂任务上表现不均，尤其是在需要机械或因果理解的任务上。知识增强评估方法能够确保生物学正确性，提供可解释的评估依据，并具有高区分能力，优于传统的字符串匹配指标。例如，在细胞类型注释任务中，知识增强评估能够更准确地识别出模型的错误预测，并给出合理的生物学解释。

🎯 应用场景

SC-ARENA可用于评估和优化单细胞生物学领域的大语言模型，加速生物学知识发现和新药研发。通过该框架，研究人员可以更有效地评估模型的生物学推理能力，开发出更可靠、更实用的单细胞分析工具，从而推动精准医疗和个性化治疗的发展。

📄 摘要（原文）

Large language models (LLMs) are increasingly applied in scientific research, offering new capabilities for knowledge discovery and reasoning. In single-cell biology, however, evaluation practices for both general and specialized LLMs remain inadequate: existing benchmarks are fragmented across tasks, adopt formats such as multiple-choice classification that diverge from real-world usage, and rely on metrics lacking interpretability and biological grounding. We present SC-ARENA, a natural language evaluation framework tailored to single-cell foundation models. SC-ARENA formalizes a virtual cell abstraction that unifies evaluation targets by representing both intrinsic attributes and gene-level interactions. Within this paradigm, we define five natural language tasks (cell type annotation, captioning, generation, perturbation prediction, and scientific QA) that probe core reasoning capabilities in cellular biology. To overcome the limitations of brittle string-matching metrics, we introduce knowledge-augmented evaluation, which incorporates external ontologies, marker databases, and scientific literature to support biologically faithful and interpretable judgments. Experiments and analysis across both general-purpose and domain-specialized LLMs demonstrate that (i) under the Virtual Cell unified evaluation paradigm, current models achieve uneven performance on biologically complex tasks, particularly those demanding mechanistic or causal understanding; and (ii) our knowledge-augmented evaluation framework ensures biological correctness, provides interpretable, evidence-grounded rationales, and achieves high discriminative capacity, overcoming the brittleness and opacity of conventional metrics. SC-Arena thus provides a unified and interpretable framework for assessing LLMs in single-cell biology, pointing toward the development of biology-aligned, generalizable foundation models.

SC-Arena: A Natural Language Benchmark for Single-Cell Reasoning with Knowledge-Augmented Evaluation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理