On measuring grounding and generalizing grounding problems

作者: Daniel Quigley, Eric Maynard

分类: cs.AI, cs.CL, cs.LG

发布日期: 2025-12-05 (更新: 2025-12-31)

备注: resubmission: 39 pages, 85 sources, 3 figures

💡 一句话要点

提出一种评估符号 grounding 的多维度框架，用于系统性研究意义

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 符号 grounding 意义表示 多维度评估 人工智能 自然语言处理

📋 核心要点

现有的符号 grounding 方法缺乏系统性的评估框架，难以全面衡量 grounding 的质量和鲁棒性。
本文提出了一种多维度评估框架，通过定义一系列期望属性，对 grounding 的不同方面进行审计。
该框架应用于多种 grounding 模式和案例研究，为系统性研究 grounding 和意义提供了通用语言和技术框架。

📝 摘要（中文）

符号 grounding 问题探讨了诸如“猫”这样的符号如何能够指代真实的猫，而不仅仅是在演算中操作的形状。本文将 grounding 从二元判断重新定义为跨越多个期望属性的审计，每个属性都由一个评估元组（上下文、意义类型、威胁模型、参考分布）索引：真实性（机制位于智能体内部，并且对于强主张，是通过学习或进化获得的）；保存性（原子意义保持不变）；忠实性，包括相关性（实现的意义与预期的意义相匹配）和病因性（内部机制对成功有因果贡献）；鲁棒性（在声明的扰动下优雅地退化）；组合性（整体系统地由部分构建）。我们将此框架应用于四种 grounding 模式（符号的、指称的、向量的、关系的）和三个案例研究：模型论语义学实现了精确的组合性，但缺乏病因性保证；大型语言模型在语言任务中表现出相关性拟合和局部鲁棒性，但在没有 grounded 交互的世界任务中缺乏对成功的选择；人类语言通过进化和发展习得满足了强真实性下的期望属性。通过将关于表征的哲学探究进行操作化，我们为科学哲学家、计算机科学家、语言学家和数学家提供了一种通用语言和技术框架，用于系统地研究 grounding 和意义。

🔬 方法详解

问题定义：符号 grounding 问题旨在理解符号如何与现实世界建立联系，即符号的意义如何产生。现有方法通常将 grounding 视为二元判断（grounded 或未 grounded），缺乏细粒度的评估，难以区分不同 grounding 方法的优劣，也难以识别 grounding 过程中的薄弱环节。

核心思路：本文的核心思路是将 grounding 从二元判断转变为多维度评估。通过定义一系列期望属性（真实性、保存性、忠实性、鲁棒性、组合性），并针对不同的评估元组（上下文、意义类型、威胁模型、参考分布）进行审计，从而全面衡量 grounding 的质量。

技术框架：该框架的核心是定义了一组 grounding 的期望属性，并将其与评估元组相关联。具体来说，框架包含以下几个关键组成部分： 1. 期望属性：定义了 grounding 应该满足的属性，例如真实性、保存性、忠实性等。 2. 评估元组：定义了评估 grounding 的上下文、意义类型、威胁模型和参考分布。 3. 审计过程：针对每个评估元组，评估 grounding 是否满足相应的期望属性。 4. grounding 模式：将框架应用于不同的 grounding 模式，例如符号的、指称的、向量的和关系的。 5. 案例研究：通过案例研究验证框架的有效性，例如模型论语义学、大型语言模型和人类语言。

关键创新：该论文的关键创新在于将 grounding 问题从二元判断转化为多维度评估，并提供了一个系统性的评估框架。该框架不仅可以用于评估现有的 grounding 方法，还可以用于指导新的 grounding 方法的设计。与现有方法相比，该框架更加全面、细粒度和可操作。

关键设计：框架的关键设计在于期望属性的定义和评估元组的选择。期望属性需要能够涵盖 grounding 的各个方面，而评估元组需要能够反映不同的应用场景和威胁模型。此外，框架还需要提供一种可操作的审计过程，以便能够有效地评估 grounding 的质量。论文中对每个属性都进行了详细的定义，并给出了具体的评估方法。

🖼️ 关键图片

📊 实验亮点

论文通过三个案例研究验证了该框架的有效性。例如，对于大型语言模型，该框架揭示了其在语言任务中表现出相关性拟合和局部鲁棒性，但在没有 grounded 交互的世界任务中存在不足。对于人类语言，该框架表明其通过进化和发展习得满足了强真实性下的期望属性。这些案例研究表明该框架可以有效地评估不同 grounding 方法的优劣，并为改进这些方法提供指导。

🎯 应用场景

该研究成果可应用于多个领域，例如机器人、自然语言处理和人工智能。通过使用该框架，可以更好地评估和改进机器人的感知和决策能力，提高自然语言处理系统的语义理解能力，并设计更可靠和鲁棒的人工智能系统。该框架还有助于促进不同领域的研究人员之间的交流和合作，共同解决 grounding 问题。

📄 摘要（原文）

The symbol grounding problem asks how tokens like cat can be about cats, as opposed to mere shapes manipulated in a calculus. We recast grounding from a binary judgment into an audit across desiderata, each indexed by an evaluation tuple (context, meaning type, threat model, reference distribution): authenticity (mechanisms reside inside the agent and, for strong claims, were acquired through learning or evolution); preservation (atomic meanings remain intact); faithfulness, both correlational (realized meanings match intended ones) and etiological (internal mechanisms causally contribute to success); robustness (graceful degradation under declared perturbations); compositionality (the whole is built systematically from the parts). We apply this framework to four grounding modes (symbolic; referential; vectorial; relational) and three case studies: model-theoretic semantics achieves exact composition but lacks etiological warrant; large language models show correlational fit and local robustness for linguistic tasks, yet lack selection-for-success on world tasks without grounded interaction; human language meets the desiderata under strong authenticity through evolutionary and developmental acquisition. By operationalizing a philosophical inquiry about representation, we equip philosophers of science, computer scientists, linguists, and mathematicians with a common language and technical framework for systematic investigation of grounding and meaning.

On measuring grounding and generalizing grounding problems

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理