On measuring grounding and generalizing grounding problems

📄 arXiv: 2512.06205v2 📥 PDF

作者: Daniel Quigley, Eric Maynard

分类: cs.AI, cs.CL, cs.LG

发布日期: 2025-12-05 (更新: 2025-12-31)

备注: resubmission: 39 pages, 85 sources, 3 figures


💡 一句话要点

提出一种评估符号 grounding 的多维度框架,用于系统性研究意义

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 符号 grounding 意义表示 多维度评估 人工智能 自然语言处理

📋 核心要点

  1. 现有的符号 grounding 方法缺乏系统性的评估框架,难以全面衡量 grounding 的质量和鲁棒性。
  2. 本文提出了一种多维度评估框架,通过定义一系列期望属性,对 grounding 的不同方面进行审计。
  3. 该框架应用于多种 grounding 模式和案例研究,为系统性研究 grounding 和意义提供了通用语言和技术框架。

📝 摘要(中文)

符号 grounding 问题探讨了诸如“猫”这样的符号如何能够指代真实的猫,而不仅仅是在演算中操作的形状。本文将 grounding 从二元判断重新定义为跨越多个期望属性的审计,每个属性都由一个评估元组(上下文、意义类型、威胁模型、参考分布)索引:真实性(机制位于智能体内部,并且对于强主张,是通过学习或进化获得的);保存性(原子意义保持不变);忠实性,包括相关性(实现的意义与预期的意义相匹配)和病因性(内部机制对成功有因果贡献);鲁棒性(在声明的扰动下优雅地退化);组合性(整体系统地由部分构建)。我们将此框架应用于四种 grounding 模式(符号的、指称的、向量的、关系的)和三个案例研究:模型论语义学实现了精确的组合性,但缺乏病因性保证;大型语言模型在语言任务中表现出相关性拟合和局部鲁棒性,但在没有 grounded 交互的世界任务中缺乏对成功的选择;人类语言通过进化和发展习得满足了强真实性下的期望属性。通过将关于表征的哲学探究进行操作化,我们为科学哲学家、计算机科学家、语言学家和数学家提供了一种通用语言和技术框架,用于系统地研究 grounding 和意义。

🔬 方法详解

问题定义:符号 grounding 问题旨在理解符号如何与现实世界建立联系,即符号的意义如何产生。现有方法通常将 grounding 视为二元判断(grounded 或未 grounded),缺乏细粒度的评估,难以区分不同 grounding 方法的优劣,也难以识别 grounding 过程中的薄弱环节。

核心思路:本文的核心思路是将 grounding 从二元判断转变为多维度评估。通过定义一系列期望属性(真实性、保存性、忠实性、鲁棒性、组合性),并针对不同的评估元组(上下文、意义类型、威胁模型、参考分布)进行审计,从而全面衡量 grounding 的质量。

技术框架:该框架的核心是定义了一组 grounding 的期望属性,并将其与评估元组相关联。具体来说,框架包含以下几个关键组成部分: 1. 期望属性:定义了 grounding 应该满足的属性,例如真实性、保存性、忠实性等。 2. 评估元组:定义了评估 grounding 的上下文、意义类型、威胁模型和参考分布。 3. 审计过程:针对每个评估元组,评估 grounding 是否满足相应的期望属性。 4. grounding 模式:将框架应用于不同的 grounding 模式,例如符号的、指称的、向量的和关系的。 5. 案例研究:通过案例研究验证框架的有效性,例如模型论语义学、大型语言模型和人类语言。

关键创新:该论文的关键创新在于将 grounding 问题从二元判断转化为多维度评估,并提供了一个系统性的评估框架。该框架不仅可以用于评估现有的 grounding 方法,还可以用于指导新的 grounding 方法的设计。与现有方法相比,该框架更加全面、细粒度和可操作。

关键设计:框架的关键设计在于期望属性的定义和评估元组的选择。期望属性需要能够涵盖 grounding 的各个方面,而评估元组需要能够反映不同的应用场景和威胁模型。此外,框架还需要提供一种可操作的审计过程,以便能够有效地评估 grounding 的质量。论文中对每个属性都进行了详细的定义,并给出了具体的评估方法。

🖼️ 关键图片

img_0

📊 实验亮点

论文通过三个案例研究验证了该框架的有效性。例如,对于大型语言模型,该框架揭示了其在语言任务中表现出相关性拟合和局部鲁棒性,但在没有 grounded 交互的世界任务中存在不足。对于人类语言,该框架表明其通过进化和发展习得满足了强真实性下的期望属性。这些案例研究表明该框架可以有效地评估不同 grounding 方法的优劣,并为改进这些方法提供指导。

🎯 应用场景

该研究成果可应用于多个领域,例如机器人、自然语言处理和人工智能。通过使用该框架,可以更好地评估和改进机器人的感知和决策能力,提高自然语言处理系统的语义理解能力,并设计更可靠和鲁棒的人工智能系统。该框架还有助于促进不同领域的研究人员之间的交流和合作,共同解决 grounding 问题。

📄 摘要(原文)

The symbol grounding problem asks how tokens like cat can be about cats, as opposed to mere shapes manipulated in a calculus. We recast grounding from a binary judgment into an audit across desiderata, each indexed by an evaluation tuple (context, meaning type, threat model, reference distribution): authenticity (mechanisms reside inside the agent and, for strong claims, were acquired through learning or evolution); preservation (atomic meanings remain intact); faithfulness, both correlational (realized meanings match intended ones) and etiological (internal mechanisms causally contribute to success); robustness (graceful degradation under declared perturbations); compositionality (the whole is built systematically from the parts). We apply this framework to four grounding modes (symbolic; referential; vectorial; relational) and three case studies: model-theoretic semantics achieves exact composition but lacks etiological warrant; large language models show correlational fit and local robustness for linguistic tasks, yet lack selection-for-success on world tasks without grounded interaction; human language meets the desiderata under strong authenticity through evolutionary and developmental acquisition. By operationalizing a philosophical inquiry about representation, we equip philosophers of science, computer scientists, linguists, and mathematicians with a common language and technical framework for systematic investigation of grounding and meaning.