SANE Schema-aware Natural-language Evaluation of Biological Data
作者: Rolf Gattung, Martin Krueger, Markus Reischl
分类: cs.CL
发布日期: 2026-06-03
备注: 5 pages, 3 figures, submitted but not yet reviewed by BMT2026
💡 一句话要点
提出SANE以解决生物数据访问中的SQL专业知识需求问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 生物数据 自然语言处理 SQL生成 高通量显微镜 模式意识 大型语言模型 数据访问 药物开发
📋 核心要点
- 现有方法在访问生物数据时需要用户具备SQL专业知识,限制了数据的可用性和易用性。
- SANE通过结合模式意识的提示和结构化输入,提供了一种无需训练即可生成准确SQL查询的解决方案。
- 实验结果表明,少量示例的大型语言模型在定义明确的领域中能够可靠地访问数据库,且大多数错误源于输入的模糊性。
📝 摘要(中文)
高通量显微镜技术生成了大量结构化数据,捕捉细胞对药物干扰的反应,但访问这些数据通常需要SQL专业知识。大型语言模型提供了自然语言替代方案,但其产生虚假信息的倾向引发了结果可靠性的问题。本文提出了SANE(Schema-Aware Natural-language Evaluation),一种针对特定领域的文本到SQL评估的新范式,结合真实实验结构的模式基础,提升了评估的可扩展性、系统性和可重复性。通过使用SANE,我们评估了少量示例的大型语言模型,结果表明在约束模式下,结合结构化提示和保护措施,可以实现准确的查询生成,而无需任何模型训练或微调。大多数失败源于模糊或不明确的输入,表现为过于谨慎的澄清请求或对需要先澄清的查询的回答,而不是错误的SQL生成。
🔬 方法详解
问题定义:本文旨在解决生物数据访问中对SQL专业知识的依赖问题,现有方法在用户友好性和数据访问效率上存在不足。
核心思路:SANE通过引入模式意识的提示和结构化输入,允许用户以自然语言生成SQL查询,降低了对专业知识的需求。
技术框架:SANE的整体架构包括数据模式的解析、自然语言输入的处理、SQL查询的生成和结果的返回,确保了系统的高效性和准确性。
关键创新:SANE的主要创新在于其模式基础的自动生成基准,结合真实实验结构,使得评估过程更加系统化和可重复。与现有方法相比,SANE在无需额外训练的情况下实现了高效的查询生成。
关键设计:在设计中,SANE采用了结构化提示和保护措施来引导模型生成准确的SQL查询,确保了在输入模糊时能够进行适当的澄清,而不是产生错误的查询。
🖼️ 关键图片
📊 实验亮点
实验结果显示,在使用SANE的情况下,少量示例的大型语言模型能够在定义明确的模式下生成准确的SQL查询,且无需任何模型训练或微调。大多数失败案例源于输入的模糊性,而非SQL生成的错误,表明该方法在特定领域内的可靠性。
🎯 应用场景
SANE的研究成果在生物医学领域具有广泛的应用潜力,尤其是在高通量数据分析和药物开发过程中。通过简化数据访问流程,研究人员可以更高效地获取和分析数据,从而加速科学发现和临床应用。未来,该方法还可扩展到其他领域的数据查询和分析任务中。
📄 摘要(原文)
High-throughput microscopy generates large, structured datasets capturing cellular responses to pharmacological perturbations, but accessing these datasets typically requires SQL expertise. Large language models offer a natural-language alternative, yet their tendency to hallucinate raises concerns about result reliability . We present SANE Schema-Aware Natural-language Evaluation, a novel paradigm for domain-specific text-to-SQL evaluation: schema-grounded, automatically generated benchmarks tied to real and specific experimental structure. SANE makes evaluation more scalable, systematic, and reproducible. Using SANE, we evaluate a few-shot large language model and show that, under constrained schemas with structured prompting and guardrails, accurate query generation is achievable without any model training or fine-tuning. Most failures stem from ambiguous or underspecified inputs and manifest as overly cautious clarification requests or answers to queries that should first be disambiguated, rather than incorrect SQL generation. These results indicate that few-shot large language models can provide reliable database access in well-defined domains when combined with schema-aware prompting.