Quantifying and extending the coverage of spatial categorization data sets
作者: Wanchun Li, Alexandra Carstensen, Yang Xu, Terry Regier, Charles Kemp
分类: cs.CL
发布日期: 2026-03-10
💡 一句话要点
利用大型语言模型扩展空间范畴数据集,提升场景覆盖率
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 空间范畴 大型语言模型 数据集扩展 拓扑关系 场景理解
📋 核心要点
- 现有空间范畴数据集规模有限,难以充分捕捉跨语言的空间关系表达差异。
- 利用大型语言模型生成场景标签,辅助选择最具信息量的场景和语言进行数据集扩展。
- 通过新增42个场景扩展TRPS数据集,实验证明新数据集在场景覆盖率方面优于以往扩展。
📝 摘要(中文)
本文研究了跨语言空间范畴的差异,通常通过引出人类对拓扑关系图片系列(TRPS)中场景的标签来实现。研究表明,大型语言模型(LLM)生成的标签与人类标签具有相对较好的一致性。本文展示了如何利用LLM生成的标签来决定向现有空间数据集添加哪些场景和语言。为了说明该方法,本文通过添加42个新场景来扩展TRPS,并表明这种扩展比TRPS的两个先前扩展更好地覆盖了可能的场景空间。研究结果为扩展到包含数十种语言和数百个场景的空间数据集奠定了基础。
🔬 方法详解
问题定义:现有空间范畴数据集,如拓扑关系图片系列(TRPS),在研究跨语言空间关系表达时存在覆盖范围不足的问题。人工标注成本高昂,限制了数据集的扩展,难以充分捕捉不同语言在空间关系表达上的细微差异。
核心思路:利用大型语言模型(LLM)强大的语言理解和生成能力,自动生成场景标签。通过分析LLM生成的标签,可以评估不同场景的信息量,并选择最具代表性的场景进行数据集扩展,从而提高数据集的覆盖率和多样性。
技术框架:该方法主要包含以下几个阶段:1) 使用现有的TRPS数据集作为基础;2) 利用LLM对候选场景生成标签;3) 基于LLM生成的标签,评估每个场景的信息量和代表性;4) 选择信息量最大的场景添加到TRPS数据集中。整个流程旨在自动化地扩展空间范畴数据集,降低人工标注成本。
关键创新:该方法的核心创新在于利用LLM自动生成场景标签,并将其用于指导数据集的扩展。与传统的人工标注方法相比,该方法可以显著降低标注成本,并能够更高效地选择最具信息量的场景。此外,该方法还提供了一种量化评估数据集覆盖率的方法,可以用于比较不同数据集的质量。
关键设计:在利用LLM生成标签时,需要设计合适的prompt,以引导LLM生成准确和一致的标签。在评估场景信息量时,可以使用信息熵等指标来衡量标签分布的多样性。在选择场景时,可以采用贪心算法,优先选择能够最大程度提高数据集覆盖率的场景。具体LLM的选择、prompt的设计以及信息量评估指标的选择,需要在实际应用中进行调整和优化。
📊 实验亮点
实验结果表明,利用LLM生成的标签与人类标签具有较高的一致性。通过新增42个场景扩展TRPS数据集后,新数据集在场景覆盖率方面优于以往的扩展版本。具体而言,新数据集能够更好地覆盖可能的场景空间,从而更全面地反映不同语言在空间关系表达上的差异。
🎯 应用场景
该研究成果可应用于跨语言自然语言处理、机器人空间认知、人机交互等领域。通过构建更大规模、更高质量的空间范畴数据集,可以提升机器对空间关系的理解能力,从而改善机器翻译、场景理解、机器人导航等任务的性能。此外,该方法还可以用于研究不同文化背景下人们对空间关系的认知差异。
📄 摘要(原文)
Variation in spatial categorization across languages is often studied by eliciting human labels for the relations depicted in a set of scenes known as the Topological Relations Picture Series (TRPS). We demonstrate that labels generated by large language models (LLMs) align relatively well with human labels, and show how LLM-generated labels can help to decide which scenes and languages to add to existing spatial data sets. To illustrate our approach we extend the TRPS by adding 42 new scenes, and show that this extension achieves better coverage of the space of possible scenes than two previous extensions of the TRPS. Our results provide a foundation for scaling towards spatial data sets with dozens of languages and hundreds of scenes.