ConnectomeBench: Can LLMs Proofread the Connectome?
作者: Jeff Brown, Andrew Kirjner, Annika Vivekananthan, Ed Boyden
分类: q-bio.NC, cs.AI, cs.CV, cs.LG
发布日期: 2025-10-31
备注: To appear in NeurIPS 2025 Datasets and Benchmarks Track
🔗 代码/项目: GITHUB | HUGGINGFACE
💡 一句话要点
ConnectomeBench:评估LLM在神经连接体校对中的能力,探索AI辅助神经科学新途径
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 神经连接体 大型语言模型 多模态学习 神经元分割 错误校正
📋 核心要点
- 神经连接体构建依赖大量人工校对,效率低且成本高,亟需自动化解决方案。
- ConnectomeBench基准测试LLM在神经元类型识别、分裂/合并错误校正方面的能力,评估AI辅助潜力。
- 实验结果表明,LLM在神经元类型识别和分裂错误校正上表现出色,但在合并错误检测上仍有挑战。
📝 摘要(中文)
神经连接体(Connectome)的构建,即绘制生物大脑中的神经连接图谱,目前依赖大量的人工校对,耗时费力。为了探索利用AI自动化这一重要科学任务的可能性,本文提出了ConnectomeBench,一个多模态基准,用于评估大型语言模型(LLM)在神经连接体校对中的三项关键任务能力:神经元类型识别、分割错误校正(分裂错误)和合并错误检测。我们使用来自两个大型开源数据集(小鼠视觉皮层的立方毫米数据和完整的果蝇大脑数据)的专家标注数据,评估了包括Claude 3.7/4 Sonnet、o4-mini、GPT-4.1、GPT-4o等专有模型以及InternVL-3和NVLM等开源模型。结果表明,当前模型在神经元类型识别(平衡准确率52-82%,随机水平20-25%)和二元/多项选择分裂错误校正(准确率75-85%,随机水平50%)方面表现出令人惊讶的高性能,但在合并错误识别任务中表现不佳。总而言之,虽然最佳模型仍落后于专家水平,但它们展示了有希望的能力,最终可能使它们能够增强甚至取代神经连接体中的人工校对。
🔬 方法详解
问题定义:神经连接体构建中的数据校对环节,特别是神经元分割后的错误校正,是高度依赖人工且耗时的过程。现有的方法主要依赖人工专家,效率低下,且容易引入主观偏差。因此,如何利用AI技术,特别是大型语言模型,来自动化或辅助这一过程,是本文要解决的核心问题。
核心思路:本文的核心思路是将神经连接体校对任务转化为LLM可以理解和处理的多模态任务。通过将神经元图像数据和相关的文本描述信息输入LLM,利用LLM强大的推理和理解能力,来判断神经元类型、检测和校正分割错误。这样设计的目的是充分利用LLM在图像和文本理解方面的优势,从而提高校对效率和准确性。
技术框架:ConnectomeBench的整体框架包括以下几个主要部分:1)数据集构建:收集并整理来自小鼠视觉皮层和果蝇大脑的神经连接体数据,并由专家进行标注,形成用于训练和评估的数据集。2)任务定义:定义了三个关键的校对任务,包括神经元类型识别、分裂错误校正和合并错误检测。3)模型评估:选择了一系列具有代表性的LLM模型,包括专有模型和开源模型,并在ConnectomeBench上进行评估。4)性能分析:对不同模型在不同任务上的表现进行详细分析,并与人工专家的表现进行比较。
关键创新:本文最重要的技术创新点在于提出了ConnectomeBench这一多模态基准,将神经连接体校对任务与LLM结合起来,为AI在神经科学领域的应用提供了一个新的研究方向。与现有方法相比,ConnectomeBench不仅提供了一个统一的评估平台,还促进了LLM在神经连接体校对方面的研究和发展。
关键设计:在数据集方面,使用了来自小鼠视觉皮层和果蝇大脑的真实神经连接体数据,保证了评估的真实性和可靠性。在任务定义方面,选择了三个关键的校对任务,涵盖了神经连接体校对的主要方面。在模型评估方面,选择了具有代表性的LLM模型,并使用了标准的评估指标,如准确率和平衡准确率,从而保证了评估的客观性和可比性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLM在神经元类型识别任务中取得了52-82%的平衡准确率,远高于随机水平(20-25%)。在二元/多项选择分裂错误校正任务中,准确率达到75-85%,也显著高于随机水平(50%)。这些结果表明,LLM在神经连接体校对方面具有巨大的潜力,尽管在合并错误检测方面仍有待提高。
🎯 应用场景
该研究成果具有广泛的应用前景,可应用于神经科学、生物医学工程等领域。通过AI辅助神经连接体构建,能够加速大脑图谱绘制,促进对神经系统疾病的理解和治疗。此外,该方法还可推广到其他需要图像分割和校对的领域,如医学影像分析、遥感图像处理等,具有重要的实际价值和未来影响。
📄 摘要(原文)
Connectomics - the mapping of neural connections in an organism's brain - currently requires extraordinary human effort to proofread the data collected from imaging and machine-learning assisted segmentation. With the growing excitement around using AI agents to automate important scientific tasks, we explore whether current AI systems can perform multiple tasks necessary for data proofreading. We introduce ConnectomeBench, a multimodal benchmark evaluating large language model (LLM) capabilities in three critical proofreading tasks: segment type identification, split error correction, and merge error detection. Using expert annotated data from two large open-source datasets - a cubic millimeter of mouse visual cortex and the complete Drosophila brain - we evaluate proprietary multimodal LLMs including Claude 3.7/4 Sonnet, o4-mini, GPT-4.1, GPT-4o, as well as open source models like InternVL-3 and NVLM. Our results demonstrate that current models achieve surprisingly high performance in segment identification (52-82% balanced accuracy vs. 20-25% chance) and binary/multiple choice split error correction (75-85% accuracy vs. 50% chance) while generally struggling on merge error identification tasks. Overall, while the best models still lag behind expert performance, they demonstrate promising capabilities that could eventually enable them to augment and potentially replace human proofreading in connectomics. Project page: https://github.com/jffbrwn2/ConnectomeBench and Dataset https://huggingface.co/datasets/jeffbbrown2/ConnectomeBench/tree/main