Language Models Can Resolve Reference Compositionally, But It's Not Their Native Strength: The Case of the Personal Relation Task

作者: Bart Evelo, Meaghan Fowlie, Denis Paperno

分类: cs.CL

发布日期: 2026-05-29

备注: A pre-MIT Press publication version. Paper accepted to Transactions of the Association for Computational Linguistics

💡 一句话要点

揭示大语言模型在指称组合性理解上的局限性：以人际关系任务为例

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 语义理解 组合性 内涵 外延 人际关系任务 指称 推理

📋 核心要点

现有大型语言模型在语义理解上缺乏像人类一样的指称能力，尤其是在需要组合性推理的任务中。
论文通过设计内涵和外延两种任务，对比人类和LLM在人际关系理解上的差异，揭示了LLM的优势和不足。
实验表明，LLM擅长内涵表示，而人类擅长外延推理，暗示LLM缺乏现实世界的指称基础。

📝 摘要（中文）

本文研究了大型语言模型（LLMs）是否真正获得了自然语言解释的组合能力。在语义解释中，区分了两个互补的方面：确定表达式在世界中指代的内容（外延任务）和以结构化方式表示其意义（内涵任务）。作者在人际关系任务（Personal Relation Task）中评估了LLMs和人类在这两项任务上的表现。该任务给定了一个人和他们之间关系的世界，要求解释诸如“Amber的父母的朋友”之类的名词短语。对于内涵任务，答案是公式“friend(parent(amber))”，对于外延任务，答案是具体的人。研究发现，人类和LLMs表现出相反的优势：人类在外延任务上表现更好，而LLMs在内涵任务上表现更好。该方法为理解现代机器学习模型中的组合能力带来了更细致的理解。研究结果支持了这样一种观点，即LLM训练中缺乏指称基础是模仿类人语言理解的关键缺失组成部分。

🔬 方法详解

问题定义：论文旨在研究大型语言模型（LLMs）是否具备真正的组合性语义理解能力，特别是区分内涵（意义的结构化表示）和外延（在世界中的指称对象）。现有方法，即直接评估LLM在自然语言任务上的表现，难以区分模型是真正理解了组合语义，还是仅仅通过统计规律学习到了表面模式。人际关系任务（Personal Relation Task）被设计用来考察模型对复合关系的理解能力，例如“Amber的父母的朋友”，需要模型理解“父母”和“朋友”的组合关系，并最终确定指称对象。

核心思路：论文的核心思路是将语义理解分解为内涵任务和外延任务，并分别评估LLM和人类在这两类任务上的表现。通过对比人类和LLM在不同任务上的优势，可以更清晰地了解LLM在组合性语义理解上的局限性。这种分解方法能够更细致地分析模型的能力，避免将表面上的成功误解为真正的理解。

技术框架：论文采用人际关系任务（Personal Relation Task）作为评估框架。该任务包含一个关于人和他们之间关系的世界，以及一系列需要解释的名词短语。对于每个名词短语，模型需要完成两个任务：内涵任务（输出表示该短语意义的逻辑公式）和外延任务（输出该短语在世界中指称的对象）。论文对比了LLM和人类在这两项任务上的表现。

关键创新：论文的关键创新在于将语义理解分解为内涵和外延两个方面，并设计实验来分别评估LLM在这两个方面的能力。这种分解方法能够更清晰地揭示LLM在组合性语义理解上的局限性，并为未来的研究方向提供了新的思路。与以往的研究相比，该论文更加关注模型理解的本质，而不仅仅是表面上的性能。

关键设计：论文的关键设计包括：1）人际关系任务的设计，该任务需要模型理解复合关系，并确定指称对象；2）内涵任务和外延任务的区分，这使得可以分别评估模型在语义表示和指称方面的能力；3）对比LLM和人类在不同任务上的表现，这有助于揭示LLM的优势和不足。具体的模型参数设置和损失函数取决于所使用的LLM，论文没有详细描述。

🖼️ 关键图片

📊 实验亮点

实验结果表明，人类在外延任务（确定指称对象）上表现优于LLM，而在内涵任务（生成逻辑公式）上LLM表现优于人类。这一发现揭示了LLM在指称基础方面的不足，暗示LLM可能更多地依赖于统计规律而非真正的语义理解。该研究为评估和改进LLM的语义理解能力提供了新的视角。

🎯 应用场景

该研究成果有助于更深入地理解大型语言模型的语义理解能力，并指导未来模型的设计和训练，使其更接近人类的语言理解方式。潜在应用包括改进对话系统、信息检索和知识图谱构建等领域，提升机器在复杂语义环境下的推理能力和准确性。未来的研究可以探索如何将指称基础融入LLM的训练过程中，从而提高其外延推理能力。

📄 摘要（原文）

Do neural models, such as Large Language Models, genuinely acquire compositional abilities for interpretation of natural language? When we talk about semantic interpretation, we can distinguish two complementary aspects: establishing what an expression refers to in the world (which we call the Extensional task) and representing its sense in a structured way (which we call the Intensional task). We evaluate LLMs and humans on both tasks in the setting of the Personal Relation Task (Paperno 2022) in which, given a universe of people and their relationships with each other, one is asked to interpret a noun phrase such as "Amber's parent's friend". Here, for the Intensional task, the answer is the formula "friend(parent(amber))", and for the Extensional task, the person. We find that humans and LLMs show opposite strengths: humans perform better on Extensional than Intensional tasks, and LLMs vice versa. Our methodology brings greater nuance to the understanding of compositional abilities in modern machine learning models. Our results support the notion that the lack of referential grounding in LLM training is a crucial missing component in mimicking human-like language understanding.

Language Models Can Resolve Reference Compositionally, But It's Not Their Native Strength: The Case of the Personal Relation Task

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理