Evaluating Spatiotemporal Consistency in Automatically Generated Sewing Instructions

📄 arXiv: 2509.24792v1 📥 PDF

作者: Luisa Geiger, Mareike Hartmann, Michael Sullivan, Alexander Koller

分类: cs.CL

发布日期: 2025-09-29

备注: 18 pages, 14 figures; to be published in EMNLP 2025 proceedings


💡 一句话要点

提出一种基于树结构的自动评估指标,用于评估LLM生成的缝纫步骤指令的时空一致性。

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)

关键词: 大型语言模型 装配指令评估 时空一致性 树结构 自动评估指标

📋 核心要点

  1. 现有评估指标(如BLEU、BERT相似度)在评估装配指令时,难以准确捕捉时空一致性。
  2. 提出一种基于树结构的自动评估指标,更准确地反映装配过程的时空特性,尤其适用于逐步指令。
  3. 实验表明,该指标与人工标注的错误计数和人类质量评分有更高的相关性,且对对抗性样本更鲁棒。

📝 摘要(中文)

本文提出了一种新颖的、基于树结构的自动评估指标,用于评估大型语言模型(LLM)生成的逐步装配指令。相比于传统的BLEU和BERT相似度评分等指标,该指标能更准确地反映构造过程中的时空方面。我们将提出的指标应用于缝纫指令领域,并表明我们的指标与人工标注的错误计数以及人类质量评分更好地相关联,证明了我们的指标在评估缝纫指令的时空合理性方面的优越性。进一步的实验表明,我们的指标比传统方法更稳健,能够抵抗专门构建的反事实示例,这些示例旨在混淆依赖于文本相似性的指标。

🔬 方法详解

问题定义:现有评估指标,如BLEU和BERT相似度,主要关注文本相似性,忽略了装配指令中重要的时空一致性。例如,缝纫步骤的顺序错误或空间关系错误,即使文本相似,也会导致指令质量下降。因此,需要一种能够更准确评估时空合理性的指标。

核心思路:将装配指令表示为树结构,树的节点代表步骤,边代表步骤之间的时空关系。通过比较生成指令树和参考指令树的结构相似性,来评估生成指令的时空一致性。这种方法能够捕捉到步骤之间的依赖关系和顺序,从而更准确地反映指令的质量。

技术框架:该方法包含以下几个主要步骤:1) 将LLM生成的缝纫指令和参考指令解析为树结构。2) 定义树节点之间的相似度度量,考虑文本相似性和时空关系。3) 使用树编辑距离或类似算法,计算生成指令树和参考指令树之间的距离。4) 将树距离转化为评估指标,用于衡量生成指令的时空一致性。

关键创新:核心创新在于将装配指令表示为树结构,并利用树编辑距离等算法来评估时空一致性。与传统的文本相似性指标相比,该方法能够更好地捕捉步骤之间的依赖关系和顺序,从而更准确地反映指令的质量。此外,该方法对对抗性样本具有更强的鲁棒性,能够有效识别出文本相似但时空不合理的指令。

关键设计:树节点的相似度度量需要仔细设计,以平衡文本相似性和时空关系的重要性。树编辑距离算法的选择也会影响评估结果的准确性和效率。此外,需要设计有效的对抗性样本生成方法,以评估指标的鲁棒性。具体参数设置和损失函数未在摘要中提及,属于未知信息。

📊 实验亮点

实验结果表明,提出的基于树结构的评估指标与人工标注的错误计数和人类质量评分具有更高的相关性,优于传统的BLEU和BERT相似度评分。此外,该指标对专门构建的对抗性样本表现出更强的鲁棒性,能够有效识别出文本相似但时空不合理的指令。具体的性能提升数据未知。

🎯 应用场景

该研究成果可应用于自动化装配、机器人操作、虚拟现实教学等领域。通过自动评估LLM生成的装配指令,可以提高指令的质量和可靠性,降低人工审核成本。此外,该方法还可以用于训练LLM生成更符合时空逻辑的装配指令,提升人机协作效率。

📄 摘要(原文)

In this paper, we propose a novel, automatic tree-based evaluation metric for LLM-generated step-by-step assembly instructions, that more accurately reflects spatiotemporal aspects of construction than traditional metrics such as BLEU and BERT similarity scores. We apply our proposed metric to the domain of sewing instructions, and show that our metric better correlates with manually-annotated error counts as well as human quality ratings, demonstrating our metric's superiority for evaluating the spatiotemporal soundness of sewing instructions. Further experiments show that our metric is more robust than traditional approaches against artificially-constructed counterfactual examples that are specifically constructed to confound metrics that rely on textual similarity.