Social Comparison without Explicit Inference of Others' Reward Values: A Constructive Approach Using a Probabilistic Generative Model

作者: Yosuke Taniuchi, Chie Hieida, Atsushi Noritake, Kazushi Ikeda, Masaki Isoda

分类: cs.AI

发布日期: 2025-12-21 (更新: 2026-01-04)

备注: This is a preprint of an article submitted for consideration in ADVANCED ROBOTICS, copyright Taylor & Francis and Robotics Society of Japan; ADVANCED ROBOTICS is available online at http://www.tandfonline.com/

💡 一句话要点

利用概率生成模型，研究猴子在无显式奖励推断下的社会比较机制

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 社会比较 计算建模 灵长类动物 奖励学习 概率生成模型

📋 核心要点

现有方法难以解释灵长类动物如何利用他人奖励信息评估自身奖励，缺乏计算层面的理解。
论文构建了三种计算模型，分别模拟不同程度的社会信息处理方式，探究猴子社会比较的认知机制。
实验结果表明，外部比较模型（ECM）性能最佳，提示猴子社会比较依赖客观奖励差异，而非主观状态推断。

📝 摘要（中文）

社会比较，即评估自身相对于他人的奖励的过程，在灵长类动物的社会认知中起着至关重要的作用。然而，从计算角度来看，关于他人奖励的信息如何影响自身奖励的评估仍然未知。本研究采用一种构造性方法，检验猴子是否仅仅识别客观的奖励差异，或者推断他人主观的奖励估值。我们开发了三种具有不同社会信息处理程度的计算模型：内部预测模型（IPM），推断伙伴的主观价值；无比较模型（NCM），忽略伙伴信息；以及外部比较模型（ECM），直接纳入伙伴的客观奖励。为了测试模型性能，我们使用了一种多层、多模态的潜在狄利克雷分配。我们使用包含一对猴子的行为、它们的奖励和条件刺激的数据集来训练模型。然后，我们评估了模型在预定义的实验条件下对主观价值进行分类的能力。在我们的设置下，ECM在兰德指数中获得了最高的分类分数（0.88 vs. IPM的0.79），表明社会比较依赖于客观的奖励差异，而不是对主观状态的推断。

🔬 方法详解

问题定义：本研究旨在解决社会认知中一个核心问题：在社会比较过程中，个体如何利用他人的奖励信息来评估自身的奖励？现有的研究缺乏对这一过程的计算建模，难以区分个体是仅仅关注客观奖励差异，还是会进一步推断他人的主观价值。

核心思路：论文的核心思路是通过构建不同的计算模型，模拟不同的社会信息处理方式，然后通过实验数据来评估这些模型的性能，从而推断猴子在社会比较过程中所采用的认知策略。关键在于区分个体是直接利用客观奖励，还是会进行更复杂的价值推断。

技术框架：整体框架包括以下几个主要步骤：1)构建三个计算模型：IPM（推断伙伴主观价值），NCM（忽略伙伴信息），ECM（直接使用伙伴客观奖励）。2)使用猴子的行为、奖励和条件刺激数据训练这些模型。3)评估模型在不同实验条件下分类主观价值的能力。4)比较不同模型的性能，以确定最能解释猴子行为的模型。

关键创新：本研究的关键创新在于其构造性的建模方法，通过构建多个具有不同假设的模型，并使用真实的行为数据进行验证，从而推断认知机制。与传统的观察性研究不同，这种方法能够更清晰地揭示个体在社会比较过程中所采用的策略。此外，使用多层、多模态的潜在狄利克雷分配（LDA）来处理复杂的数据也是一个创新点。

关键设计：模型使用了多层、多模态的潜在狄利雷克分配（LDA）来处理猴子的行为、奖励和条件刺激数据。具体来说，LDA被用于学习潜在的主题（即主观价值），然后模型根据这些主题对不同的实验条件进行分类。模型的性能通过兰德指数（Rand Index）来评估，该指标衡量了模型分类结果与真实标签的一致性。

🖼️ 关键图片

📊 实验亮点

实验结果显示，外部比较模型（ECM）在兰德指数中获得了最高的分类分数（0.88），显著优于内部预测模型（IPM）的0.79。这表明，在猴子的社会比较过程中，客观的奖励差异比对他人主观价值的推断起着更重要的作用。这一发现挑战了以往认为社会比较涉及复杂心理推理的观点。

🎯 应用场景

该研究成果有助于我们更深入地理解社会认知和决策过程，尤其是在涉及社会比较的场景中。潜在应用包括开发更智能的社交机器人，它们能够更好地理解人类的社会行为并做出适当的反应。此外，该研究还可以为理解人类社会行为障碍（如自闭症）提供新的视角。

📄 摘要（原文）

Social comparison$\unicode{x2014}$the process of evaluating one's rewards relative to others$\unicode{x2014}$plays a fundamental role in primate social cognition. However, it remains unknown from a computational perspective how information about others' rewards affects the evaluation of one's own reward. With a constructive approach, this study examines whether monkeys merely recognize objective reward differences or, instead, infer others' subjective reward valuations. We developed three computational models with varying degrees of social information processing: an Internal Prediction Model (IPM), which infers the partner's subjective values; a No Comparison Model (NCM), which disregards partner information; and an External Comparison Model (ECM), which directly incorporates the partner's objective rewards. To test model performance, we used a multi-layered, multimodal latent Dirichlet allocation. We trained the models on a dataset containing the behavior of a pair of monkeys, their rewards, and the conditioned stimuli. Then, we evaluated the models' ability to classify subjective values across pre-defined experimental conditions. The ECM achieved the highest classification score in the Rand Index (0.88 vs. 0.79 for the IPM) under our settings, suggesting that social comparison relies on objective reward differences rather than inferences about subjective states.

Social Comparison without Explicit Inference of Others' Reward Values: A Constructive Approach Using a Probabilistic Generative Model

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理