SC-Arena: A Natural Language Benchmark for Single-Cell Reasoning with Knowledge-Augmented Evaluation

作者: Jiahao Zhao, Feng Jiang, Shaowei Qin, Zhonghui Zhang, Junhao Liu, Guibing Guo, Hamid Alinejad-Rokny, Min Yang

分类: cs.AI

发布日期: 2026-02-28

💡 一句话要点

SC-Arena：一个基于知识增强评估的单细胞推理自然语言基准

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 单细胞生物学 大语言模型 自然语言处理 知识增强 模型评估

📋 核心要点

现有单细胞生物学LLM评估基准分散、形式不贴合实际，且缺乏生物学基础的评价指标。
SC-ARENA通过虚拟细胞抽象统一评估目标，并引入知识增强评估以提升生物学正确性和可解释性。
实验表明，现有模型在复杂生物学任务上表现不均，而SC-ARENA能提供更可靠和可解释的评估结果。

📝 摘要（中文）

大型语言模型（LLMs）越来越多地应用于科学研究，为知识发现和推理提供了新的能力。然而，在单细胞生物学中，通用和专用LLMs的评估实践仍然不足：现有基准在任务中是分散的，采用诸如多项选择分类等与实际使用不同的格式，并且依赖于缺乏可解释性和生物学基础的指标。我们提出了SC-ARENA，这是一个为单细胞基础模型量身定制的自然语言评估框架。SC-ARENA形式化了一个虚拟细胞抽象，通过表示内在属性和基因水平的相互作用来统一评估目标。在这个范例中，我们定义了五个自然语言任务（细胞类型注释、描述生成、细胞生成、扰动预测和科学问答），这些任务探测了细胞生物学中的核心推理能力。为了克服脆弱的字符串匹配指标的局限性，我们引入了知识增强评估，它结合了外部本体、标记数据库和科学文献，以支持生物学上忠实和可解释的判断。对通用和领域专用LLMs的实验和分析表明：（i）在虚拟细胞统一评估范例下，当前模型在生物学上复杂的任务（特别是那些需要机械或因果理解的任务）上表现不均匀；（ii）我们的知识增强评估框架确保了生物学正确性，提供了可解释的、基于证据的理由，并实现了高区分能力，克服了传统指标的脆弱性和不透明性。因此，SC-Arena为评估单细胞生物学中的LLMs提供了一个统一且可解释的框架，指向了生物学对齐的、可推广的基础模型的开发。

🔬 方法详解

问题定义：现有单细胞生物学领域的大语言模型（LLM）评估存在以下痛点：一是评估任务分散，缺乏统一的评估框架；二是评估形式（如多项选择）与实际应用场景脱节；三是评估指标依赖于简单的字符串匹配，缺乏生物学意义和可解释性，容易产生误判。因此，需要一个更全面、更贴合实际、更具生物学意义的评估框架来衡量LLM在单细胞生物学领域的推理能力。

核心思路：SC-ARENA的核心思路是构建一个“虚拟细胞”抽象，将细胞的各种属性和基因间的相互作用统一表示，从而将不同的评估任务整合到一个框架下。同时，引入知识增强评估，利用外部知识库（如本体、标记数据库、科学文献）来辅助评估，提高评估结果的生物学正确性和可解释性。这种设计旨在克服传统评估方法的局限性，更准确地评估LLM在单细胞生物学领域的推理能力。

技术框架：SC-ARENA框架包含以下几个主要组成部分：1) 虚拟细胞抽象：将细胞的各种属性和基因间的相互作用统一表示。2) 自然语言任务定义：定义了五个自然语言任务，包括细胞类型注释、描述生成、细胞生成、扰动预测和科学问答，涵盖了单细胞生物学中的核心推理能力。3) 知识增强评估：利用外部知识库（如本体、标记数据库、科学文献）来辅助评估，提高评估结果的生物学正确性和可解释性。4) 评估指标：采用基于知识的评估指标，克服了传统字符串匹配指标的局限性。

关键创新：SC-ARENA的关键创新在于：1) 统一的虚拟细胞抽象：将不同的评估任务整合到一个框架下，实现了统一评估。2) 知识增强评估：利用外部知识库来辅助评估，提高了评估结果的生物学正确性和可解释性。3) 自然语言任务设计：设计的五个自然语言任务涵盖了单细胞生物学中的核心推理能力，更全面地评估了LLM的性能。

关键设计：SC-ARENA的关键设计包括：1) 虚拟细胞抽象的具体实现方式，如何表示细胞的各种属性和基因间的相互作用。2) 知识增强评估的具体方法，如何利用外部知识库来辅助评估，例如，如何将本体信息融入到评估指标中。3) 五个自然语言任务的具体设计，例如，如何设计科学问答任务，使其能够考察LLM的推理能力。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在SC-ARENA的虚拟细胞统一评估范例下，现有模型在生物学上复杂的任务上表现不均匀，尤其是在需要机械或因果理解的任务上。同时，知识增强评估框架能够确保生物学正确性，提供可解释的、基于证据的理由，并实现高区分能力，克服了传统指标的脆弱性和不透明性。这些结果验证了SC-ARENA的有效性和优越性。

🎯 应用场景

SC-ARENA可用于评估和比较不同LLM在单细胞生物学领域的性能，指导生物学对齐的基础模型开发。它还可应用于单细胞数据分析、药物研发等领域，例如，利用LLM进行细胞类型预测、基因功能预测等，加速生物学研究进程。未来，该框架可扩展到其他生物医学领域，促进AI在生物医学领域的应用。

📄 摘要（原文）

Large language models (LLMs) are increasingly applied in scientific research, offering new capabilities for knowledge discovery and reasoning. In single-cell biology, however, evaluation practices for both general and specialized LLMs remain inadequate: existing benchmarks are fragmented across tasks, adopt formats such as multiple-choice classification that diverge from real-world usage, and rely on metrics lacking interpretability and biological grounding. We present SC-ARENA, a natural language evaluation framework tailored to single-cell foundation models. SC-ARENA formalizes a virtual cell abstraction that unifies evaluation targets by representing both intrinsic attributes and gene-level interactions. Within this paradigm, we define five natural language tasks (cell type annotation, captioning, generation, perturbation prediction, and scientific QA) that probe core reasoning capabilities in cellular biology. To overcome the limitations of brittle string-matching metrics, we introduce knowledge-augmented evaluation, which incorporates external ontologies, marker databases, and scientific literature to support biologically faithful and interpretable judgments. Experiments and analysis across both general-purpose and domain-specialized LLMs demonstrate that (i) under the Virtual Cell unified evaluation paradigm, current models achieve uneven performance on biologically complex tasks, particularly those demanding mechanistic or causal understanding; and (ii) our knowledge-augmented evaluation framework ensures biological correctness, provides interpretable, evidence-grounded rationales, and achieves high discriminative capacity, overcoming the brittleness and opacity of conventional metrics. SC-Arena thus provides a unified and interpretable framework for assessing LLMs in single-cell biology, pointing toward the development of biology-aligned, generalizable foundation models.

SC-Arena: A Natural Language Benchmark for Single-Cell Reasoning with Knowledge-Augmented Evaluation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理