Ishigaki-IDS-Bench: A Benchmark for Generating Information Delivery Specification from BIM Information Requirements

📄 arXiv: 2605.22079v1 📥 PDF

作者: Ryo Kanazawa, Koyo Hidaka, Teppei Miyamoto, Takayuki Kato, Tomoki Ando, Chenguang Wang, Dayuan Jiang, Naofumi Fujita, Shuhei Saitoh, Atomu Kondo, Koki Arakawa, Daiho Nishioka

分类: cs.CL

发布日期: 2026-05-21

备注: 7 pages; benchmark data and evaluation scripts are available on GitHub and Hugging Face


💡 一句话要点

提出Ishigaki-IDS-Bench基准,用于评估LLM从BIM信息需求生成IDS XML的能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 建筑信息模型 信息交付规范 大型语言模型 结构化输出生成 基准数据集

📋 核心要点

  1. 现有方法难以评估LLM在满足行业标准XML和领域词汇约束下生成结构化输出的能力,缺乏公开可用的评测资源。
  2. Ishigaki-IDS-Bench基准通过提供专家编写和验证的BIM/IDS示例,评估LLM从BIM信息需求生成IDS XML的能力。
  3. 实验结果表明,现有LLM在生成满足IDS标准和IFC词汇约束的XML方面仍存在困难,该基准支持进一步研究和方法改进。

📝 摘要(中文)

大型语言模型(LLMs)被广泛用于生成结构化输出,如JSON、SQL和代码,但用于评估同时满足行业标准XML和领域词汇约束的生成任务的公共资源仍然有限。本文提出了Ishigaki-IDS-Bench,这是一个用于评估从建筑信息模型(BIM)信息需求生成信息交付规范(IDS)XML能力的基准。该基准包含166个由BIM/IDS专家编写和验证的示例,这些示例通过将83个实际场景扩展为日语和英语而创建,对应黄金IDS文件以及输入格式、语言、轮次设置、IFC版本和施工领域的元数据。其评估结合了基于IDSAuditTool的可处理性、结构和内容审计,以及针对黄金IDS文件的内容一致性评估。在对10个LLM的零样本评估中,最佳模型在内容一致性方面达到了65.6%的宏F1值,但只有27.7%的输出通过了内容审计。这些结果表明,当前的LLM可以将部分信息需求表达为IDS,但仍然难以稳定地生成满足IDS标准和IFC词汇约束的XML。Ishigaki-IDS-Bench支持比较评估、失败分析以及符合领域标准的约束结构化生成方法的发展。我们在GitHub和Hugging Face上以CC BY 4.0许可证发布了评估脚本和基准数据。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在生成符合行业标准XML(具体为IDS XML)和领域词汇约束(IFC)的结构化输出时面临的评估难题。现有方法缺乏专门针对BIM领域信息需求到IDS XML生成的基准数据集,难以有效评估LLM在此任务上的性能。

核心思路:论文的核心思路是构建一个高质量的基准数据集Ishigaki-IDS-Bench,该数据集包含专家编写和验证的BIM信息需求示例及其对应的黄金IDS XML文件。通过该基准,可以系统地评估LLM生成符合IDS标准和IFC词汇约束的XML的能力,并促进相关研究的发展。

技术框架:Ishigaki-IDS-Bench基准主要包含以下几个部分:1) 数据集构建:基于83个实际BIM场景,扩展为日语和英语两种语言,生成166个BIM信息需求示例,并由专家编写对应的黄金IDS XML文件。2) 评估指标:采用IDSAuditTool进行可处理性、结构和内容审计,并计算生成结果与黄金IDS文件之间的内容一致性(宏F1值)。3) 实验评估:在10个LLM上进行零样本评估,分析模型的性能表现和存在的问题。

关键创新:该论文的关键创新在于构建了一个专门针对BIM领域信息需求到IDS XML生成的基准数据集。与通用的结构化输出生成基准相比,Ishigaki-IDS-Bench更加关注行业标准和领域词汇约束,能够更准确地评估LLM在特定领域的应用能力。

关键设计:数据集包含多种元数据,如输入格式、语言、轮次设置、IFC版本和施工领域,方便研究人员进行更细粒度的分析。评估指标结合了IDSAuditTool的自动化审计和内容一致性评估,能够全面评估生成结果的质量。论文还提供了评估脚本和基准数据,方便研究人员进行复现和扩展。

📊 实验亮点

在对10个LLM的零样本评估中,最佳模型在内容一致性方面达到了65.6%的宏F1值,但只有27.7%的输出通过了内容审计。这表明,当前的LLM在生成符合IDS标准和IFC词汇约束的XML方面仍存在较大提升空间,Ishigaki-IDS-Bench为后续研究提供了重要的评估平台。

🎯 应用场景

该研究成果可应用于建筑信息模型(BIM)领域,帮助自动化生成信息交付规范(IDS),提高建筑设计的效率和质量。通过该基准,可以促进LLM在建筑行业的应用,并推动智能建造的发展。未来,该基准可以扩展到其他领域,如土木工程、基础设施建设等。

📄 摘要(原文)

Large language models (LLMs) are widely used to generate structured outputs such as JSON, SQL, and code, yet public resources remain limited for evaluating generation that must simultaneously satisfy industry-standard XML and domain vocabulary constraints. This paper presents Ishigaki-IDS-Bench, a benchmark for evaluating the ability to generate Information Delivery Specification (IDS) XML from Building Information Modeling (BIM) information requirements. The benchmark contains 166 BIM/IDS expert-authored and verified examples created by expanding 83 practical scenarios into Japanese and English, corresponding gold IDS files, and metadata for input format, language, turn setting, IFC version, and construction domain. Its evaluation combines IDSAuditTool-based Processability, Structure, and Content audits with content-agreement evaluation against gold IDS files. In zero-shot evaluation over 10 LLMs, the best model reaches 65.6% macro F1 for content agreement, while only 27.7% of outputs pass the Content audit. These results show that current LLMs can express part of the information requirements as IDS, but still struggle to stably generate XML that satisfies the IDS standard and IFC vocabulary constraints. Ishigaki-IDS-Bench supports comparative evaluation, failure analysis, and the development of constrained structured generation methods that conform to domain standards. We release the evaluation scripts and benchmark data under the CC BY 4.0 license on GitHub and Hugging Face.