Parallelograms Strike Back: LLMs Generate Better Analogies than People
作者: Qiawen Ella Liu, Raja Marjieh, Jian-Qiao Zhu, Adele E. Goldberg, Thomas L. Griffiths
分类: cs.CL, cs.AI
发布日期: 2026-03-19
💡 一句话要点
大型语言模型在类比生成任务中优于人类,更符合平行四边形模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 类比推理 大型语言模型 平行四边形模型 词嵌入 语义关系
📋 核心要点
- 现有研究表明,人类在类比生成任务中表现不佳,简单启发式方法优于平行四边形模型。
- 本文提出使用大型语言模型(LLM)生成类比,并评估其与平行四边形模型的对齐程度。
- 实验表明,LLM生成的类比优于人类,且更符合平行四边形结构,对局部相似性依赖更少。
📝 摘要(中文)
四项词语类比(A:B::C:D)在经典模型中被几何地建模为“平行四边形”。然而,最近的研究表明,这种模型不能很好地捕捉人类产生类比的方式,简单的局部相似性启发式方法通常能提供更好的解释。本文对比了人类和大型语言模型(LLM)在同一组类比问题上的补全结果。研究发现,LLM生成的类比被认为比人类生成的更好,并且在分布式嵌入空间(GloVe)中与平行四边形结构更紧密地对齐。关键在于,LLM相对于人类类比的改进,是由更高的平行四边形对齐度和对可访问词汇的更少依赖驱动的,而不是对局部相似性的增强敏感性。此外,LLM的优势并非来自LLM的一致性优越响应,而是由于人类产生大量较弱的补全结果。当仅比较两种系统最常见的(模态)响应时,LLM的优势消失。然而,更高的平行四边形对齐度和更低的词频仍然可以预测哪些LLM补全结果比人类的评分更高。总的来说,这些结果表明,平行四边形模型并不是一个糟糕的词语类比模型。相反,人类可能经常无法产生满足这种关系约束的补全结果,而LLM在这方面做得更一致。
🔬 方法详解
问题定义:论文旨在解决人类在四项词语类比任务中表现不佳的问题。现有方法,即人类的类比生成,往往依赖于简单的局部相似性启发式方法,而未能充分利用平行四边形模型所蕴含的关系结构。这导致生成的类比质量不高,与理想的类比关系存在偏差。
核心思路:论文的核心思路是利用大型语言模型(LLM)强大的语言建模能力,使其能够更好地捕捉词语之间的关系,并生成更符合平行四边形结构的类比。LLM通过学习大量的文本数据,能够隐式地学习到词语之间的语义关系,从而在类比生成任务中表现出优于人类的性能。
技术框架:论文采用了一种对比实验的方法,将人类和LLM在同一组类比问题上的补全结果进行比较。具体来说,给定A:B::C:?,要求人类和LLM补全D。然后,通过人工评估和计算平行四边形对齐度来评估生成的类比的质量。使用的LLM模型未明确说明,但暗示是预训练的通用LLM。
关键创新:论文的关键创新在于证明了LLM在类比生成任务中优于人类,并且这种优势来自于LLM更好地捕捉了词语之间的关系结构,更符合平行四边形模型。此外,论文还发现,LLM的优势并非来自于一致性的优越响应,而是由于人类产生大量较弱的补全结果。
关键设计:论文的关键设计包括:1) 使用GloVe词嵌入空间计算平行四边形对齐度,即向量(B-A)与向量(D-C)的余弦相似度;2) 对比人类和LLM生成的类比的质量,包括人工评估和计算平行四边形对齐度;3) 分析LLM相对于人类的优势来源,包括平行四边形对齐度、词频和局部相似性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLM生成的类比被人工评估为优于人类生成的类比,并且在GloVe嵌入空间中与平行四边形结构更紧密地对齐。LLM的优势主要来自于更高的平行四边形对齐度和对低频词的更多使用,而非对局部相似性的增强敏感性。当仅比较最常见的响应时,LLM的优势消失,但平行四边形对齐度和词频仍然可以预测LLM补全结果的质量。
🎯 应用场景
该研究成果可应用于智能问答、知识图谱补全、创意写作等领域。通过利用LLM生成高质量的类比,可以提升智能系统的推理能力和创造力,例如,在教育领域,可以利用LLM生成类比来帮助学生理解抽象概念;在创意写作领域,可以利用LLM生成类比来激发创作灵感。
📄 摘要(原文)
Four-term word analogies (A:B::C:D) are classically modeled geometrically as ''parallelograms,'' yet recent work suggests this model poorly captures how humans produce analogies, with simple local-similarity heuristics often providing a better account (Peterson et al., 2020). But does the parallelogram model fail because it is a bad model of analogical relations, or because people are not very good at generating relation-preserving analogies? We compared human and large language model (LLM) analogy completions on the same set of analogy problems from (Peterson et al., 2020). We find that LLM-generated analogies are reliably judged as better than human-generated ones, and are also more closely aligned with the parallelogram structure in a distributional embedding space (GloVe). Crucially, we show that the improvement over human analogies was driven by greater parallelogram alignment and reduced reliance on accessible words rather than enhanced sensitivity to local similarity. Moreover, the LLM advantage is driven not by uniformly superior responses by LLMs, but by humans producing a long tail of weak completions: when only modal (most frequent) responses by both systems are compared, the LLM advantage disappears. However, greater parallelogram alignment and lower word frequency continue to predict which LLM completions are rated higher than those of humans. Overall, these results suggest that the parallelogram model is not a poor account of word analogy. Rather, humans may often fail to produce completions that satisfy this relational constraint, whereas LLMs do so more consistently.