NeuroClaw Technical Report
作者: Cheng Wang, Zhibin He, Zhihao Peng, Shengyuan Liu, Yufan Hu, Lichao Sun, Xiang Li, Yixuan Yuan
分类: cs.CV
发布日期: 2026-04-27
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
NeuroClaw:用于可执行和可复现神经影像研究的领域专用多智能体研究助手
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 神经影像 多智能体系统 可重复性 自动化 BIDS 环境管理 NeuroBench
📋 核心要点
- 神经影像研究面临异构数据、复杂流程和可重复性挑战,现有方法难以有效应对。
- NeuroClaw通过多智能体系统,直接处理原始数据,利用数据集语义和元数据驱动决策,简化流程。
- NeuroClaw结合环境管理和工具链优化,显著提升了神经影像研究的可执行性、可重复性和可审计性。
📝 摘要(中文)
Agentic人工智能系统有望加速科学工作流程,但神经影像学面临独特的挑战:异构模态(sMRI、fMRI、dMRI、EEG)、漫长的多阶段流程以及持续存在的可重复性风险。为了解决这一差距,我们提出了NeuroClaw,一个领域专用的多智能体研究助手,用于可执行和可复现的神经影像研究。NeuroClaw直接处理各种格式和模态的原始神经影像数据,基于数据集语义和BIDS元数据做出决策,因此用户无需准备精心策划的输入或定制的模型代码。该平台结合了 harness 工程和端到端环境管理,包括固定的Python环境、Docker支持、常见神经影像工具的自动安装程序和GPU配置。实际上,这一层强调检查点、执行后验证、结构化审计跟踪和受控的运行时设置,使工具链更加透明,同时提高可重复性和可审计性。一个三层技能/代理层级结构分离了面向用户的交互、高级编排和低级工具技能,从而将复杂的工作流程分解为安全、可重用的单元。除了NeuroClaw框架之外,我们还引入了NeuroBench,一个用于可执行性、伪像有效性和可重复性准备情况的系统级基准。在多个多模态LLM中,与直接代理调用相比,启用NeuroClaw的运行产生了持续且显着的得分提升。
🔬 方法详解
问题定义:神经影像研究涉及多种模态的数据(sMRI, fMRI, dMRI, EEG),需要经过复杂的多阶段处理流程。现有的方法往往需要用户手动准备数据、编写定制代码,并且难以保证结果的可重复性,这阻碍了神经影像研究的效率和可靠性。
核心思路:NeuroClaw的核心思路是构建一个领域专用的多智能体系统,该系统能够自动处理原始神经影像数据,并根据数据集的语义和元数据进行决策。通过将复杂的工作流程分解为多个可重用的单元,并提供统一的环境管理和工具链优化,NeuroClaw旨在提高神经影像研究的可执行性、可重复性和可审计性。
技术框架:NeuroClaw采用三层技能/代理层级结构:用户交互层、高级编排层和低级工具技能层。用户交互层负责接收用户指令;高级编排层将用户指令分解为一系列任务,并协调不同智能体之间的协作;低级工具技能层负责执行具体的神经影像处理任务,例如数据预处理、特征提取和统计分析。此外,NeuroClaw还提供端到端的环境管理,包括固定的Python环境、Docker支持、自动安装程序和GPU配置。
关键创新:NeuroClaw的关键创新在于其领域专用的多智能体架构和端到端的环境管理。与传统的单体应用相比,多智能体架构能够更好地应对神经影像研究的复杂性和多样性。端到端的环境管理则能够确保研究的可重复性,并减少用户在环境配置上花费的时间。
关键设计:NeuroClaw的关键设计包括:(1) 基于BIDS元数据的数据驱动决策,避免用户手动准备数据;(2) 三层技能/代理层级结构,将复杂工作流程分解为可重用单元;(3) 自动化工具安装和GPU配置,简化环境管理;(4) 检查点、执行后验证和结构化审计跟踪,提高可审计性。
🖼️ 关键图片
📊 实验亮点
NeuroClaw通过NeuroBench基准测试,在可执行性、伪像有效性和可重复性方面取得了显著提升。与直接调用LLM相比,启用NeuroClaw的运行在多个多模态LLM上产生了持续且显著的得分提升,证明了其在神经影像研究中的有效性。
🎯 应用场景
NeuroClaw可应用于各种神经影像研究领域,例如脑疾病诊断、认知功能评估和神经调控治疗。它能够帮助研究人员更高效地进行实验,并提高研究结果的可靠性和可重复性。NeuroClaw的未来发展方向包括支持更多模态的数据、集成更多神经影像工具,以及提供更智能的自动化流程。
📄 摘要(原文)
Agentic artificial intelligence systems promise to accelerate scientific workflows, but neuroimaging poses unique challenges: heterogeneous modalities (sMRI, fMRI, dMRI, EEG), long multi-stage pipelines, and persistent reproducibility risks. To address this gap, we present NeuroClaw, a domain-specialized multi-agent research assistant for executable and reproducible neuroimaging research. NeuroClaw operates directly on raw neuroimaging data across formats and modalities, grounding decisions in dataset semantics and BIDS metadata so users need not prepare curated inputs or bespoke model code. The platform combines harness engineering with end-to-end environment management, including pinned Python environments, Docker support, automated installers for common neuroimaging tools, and GPU configuration. In practice, this layer emphasizes checkpointing, post-execution verification, structured audit traces, and controlled runtime setup, making toolchains more transparent while improving reproducibility and auditability. A three-tier skill/agent hierarchy separates user-facing interaction, high-level orchestration, and low-level tool skills to decompose complex workflows into safe, reusable units. Alongside the NeuroClaw framework, we introduce NeuroBench, a system-level benchmark for executability, artifact validity, and reproducibility readiness. Across multiple multimodal LLMs, NeuroClaw-enabled runs yield consistent and substantial score improvements compared with direct agent invocation. Project homepage: https://cuhk-aim-group.github.io/NeuroClaw/index.html