Context Sensitivity Improves Human-Machine Visual Alignment

作者: Frieda Born, Tom Neuhäuser, Lukas Muttenthaler, Brett D. Roads, Bernhard Spitzer, Andrew K. Lampinen, Matt Jones, Klaus-Robert Müller, Michael C. Mozer

分类: cs.CV, cs.LG

发布日期: 2026-04-15

💡 一句话要点

提出上下文敏感相似度计算方法，提升人机视觉对齐效果

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 上下文敏感性 视觉对齐 人机交互 图像嵌入 相似度计算

📋 核心要点

现有机器学习模型缺乏人类的上下文感知能力，无法有效处理视觉信息。
论文提出一种上下文敏感的相似度计算方法，利用锚图像作为上下文信息，提升模型性能。
实验表明，该方法在奇数项排除任务中，相比上下文不敏感模型，准确率提升高达15%。

📝 摘要（中文）

现代机器学习模型通常将输入表示为高维嵌入空间中的固定点。虽然这种方法已被证明在各种下游任务中非常强大，但它与人类处理信息的方式存在根本差异。由于人类不断适应环境，他们以高度上下文敏感的方式表示对象及其关系。为了弥补这一差距，我们提出了一种基于神经网络嵌入的上下文敏感相似度计算方法，并将其应用于建模三元组奇数项排除任务，其中锚图像同时作为上下文。建模上下文使我们能够在奇数项排除准确率方面实现高达15%的提升，优于上下文不敏感模型。我们发现这种改进在原始和“人类对齐”的视觉基础模型中都是一致的。

🔬 方法详解

问题定义：现有机器学习模型在视觉表征方面通常采用固定嵌入的方式，忽略了人类视觉系统对上下文的依赖性。这种忽略导致模型在理解图像关系，特别是需要细粒度区分的任务中表现不佳。论文旨在解决机器视觉模型缺乏上下文敏感性的问题，使其更接近人类的视觉认知方式。

核心思路：论文的核心思路是引入上下文信息来动态调整图像的嵌入表示。具体而言，通过将锚图像作为上下文，影响其他图像之间的相似度计算。这种动态调整使得模型能够根据不同的上下文环境，更准确地判断图像之间的关系。

技术框架：该方法主要包含以下几个阶段：1) 使用预训练的视觉基础模型（如原始或人类对齐的模型）提取图像的初始嵌入表示。2) 将锚图像的嵌入表示作为上下文信息。3) 设计一个上下文敏感的相似度计算模块，该模块利用锚图像的嵌入来调整其他图像之间的相似度。4) 在三元组奇数项排除任务中，根据调整后的相似度选择与锚图像最不相似的图像。

关键创新：该方法最重要的创新点在于提出了上下文敏感的相似度计算方法。与传统的上下文不敏感方法相比，该方法能够根据不同的上下文动态调整图像的嵌入表示，从而更准确地捕捉图像之间的关系。这种动态调整是模仿人类视觉系统上下文感知能力的关键。

关键设计：具体的上下文敏感相似度计算模块的设计细节未知，论文中可能没有详细描述。但可以推测，该模块可能包含一些可学习的参数，用于将锚图像的嵌入表示与目标图像的嵌入表示进行融合，从而得到上下文敏感的相似度得分。损失函数方面，可能采用对比损失或三元组损失，以鼓励模型学习到能够区分相似和不相似图像的嵌入表示。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在三元组奇数项排除任务中取得了显著的性能提升。与上下文不敏感模型相比，该方法在准确率方面提升高达15%。此外，该方法在原始和“人类对齐”的视觉基础模型中都表现出一致的改进，表明其具有良好的泛化能力。

🎯 应用场景

该研究成果可应用于图像检索、目标识别、图像分类等领域。通过引入上下文敏感性，可以提高机器视觉系统在复杂场景下的理解能力，使其更接近人类的视觉认知水平。未来，该方法有望应用于自动驾驶、智能监控、医疗影像分析等领域，提升相关系统的智能化水平。

📄 摘要（原文）

Modern machine learning models typically represent inputs as fixed points in a high-dimensional embedding space. While this approach has been proven powerful for a wide range of downstream tasks, it fundamentally differs from the way humans process information. Because humans are constantly adapting to their environment, they represent objects and their relationships in a highly context-sensitive manner. To address this gap, we propose a method for context-sensitive similarity computation from neural network embeddings, applied to modeling a triplet odd-one-out task with an anchor image serving as simultaneous context. Modeling context enables us to achieve up to a 15% improvement in odd-one-out accuracy over a context-insensitive model. We find that this improvement is consistent across both original and "human-aligned" vision foundation models.

Context Sensitivity Improves Human-Machine Visual Alignment

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理