When and How Human Curation Backfires: Preference Alignment under Multi-Model Self-Consuming Loop

作者: Yang Zhang, Xiukun Wei, Xueru Zhang

分类: cs.AI, cs.LG

发布日期: 2026-05-28

💡 一句话要点

研究多模型自消费循环中人工干预的负面影响及偏好对齐问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自消费训练 多模型交互 人工干预 偏好对齐 模型偏差

📋 核心要点

现有研究主要关注单个模型自消费训练，忽略了多模型交互下的复杂影响，可能导致对人工干预效果的误判。
论文构建了多模型自消费训练的理论框架，分析了模型间相互影响的动态过程，并探讨了人工干预在其中的作用。
研究表明，在多模型场景下，人工干预的效果可能被其他模型抵消甚至反转，从而损害整体的长期对齐性能。

📝 摘要（中文）

基础模型越来越多地使用由先前模型迭代生成的合成数据进行训练，而不是完全依赖真实数据。这种自消费训练范式可能导致模型崩溃、发散或偏差放大。最近的研究表明，将人工干预纳入循环可以引导自消费模型朝着与人类对齐的行为发展，但这些分析主要集中在单个、孤立的模型上，这些模型仅消费自己的输出。然而，在实践中，模型经常交互并训练由其他模型生成的输入-输出对。本文研究了多模型机制中的自消费训练。我们首先形式化了一个交互自消费模型的框架，并描述了由此产生的动力系统何时收敛到稳定点。然后，我们研究了一个模型的人工干预如何影响其自身的对齐（自我影响），以及这种影响如何传播到其他模型（交叉影响）。与人工干预总是增强模型对齐的孤立设置不同，我们表明跨模型交互可能会削弱甚至反转这种效果，最终降低长期对齐。

🔬 方法详解

问题定义：论文旨在解决多模型自消费训练循环中，人工干预对模型偏好对齐的复杂影响问题。现有研究主要关注单个模型，忽略了模型间的相互作用，导致对人工干预效果的评估不准确。在多模型协同训练的场景下，一个模型的人工干预不仅影响自身，还会通过数据传递影响其他模型，这种跨模型的影响可能是积极的，也可能是消极的，现有方法无法有效建模和分析这种复杂性。

核心思路：论文的核心思路是构建一个多模型自消费训练的动态系统模型，通过分析该系统的稳定性和收敛性，来研究人工干预对模型偏好对齐的影响。该模型考虑了模型间的相互作用，以及人工干预对单个模型的影响，从而能够更准确地评估人工干预的长期效果。通过理论分析和实验验证，揭示了在多模型场景下，人工干预可能产生的负面影响。

技术框架：论文构建了一个包含多个模型的自消费训练框架。每个模型都使用其他模型的输出作为训练数据的一部分。框架包含以下几个关键模块：1) 数据生成模块：每个模型根据自身的偏好生成数据。2) 人工干预模块：对部分模型生成的数据进行人工标注，以引导模型的偏好。3) 模型训练模块：每个模型使用混合了自身生成数据和其他模型生成数据的数据集进行训练。4) 评估模块：评估模型的偏好对齐程度。整个框架通过迭代执行这些模块，模拟多模型自消费训练的过程。

关键创新：论文的关键创新在于提出了一个多模型自消费训练的动态系统模型，并分析了人工干预在该系统中的影响。与以往研究只关注单个模型不同，该模型考虑了模型间的相互作用，从而能够更准确地评估人工干预的长期效果。此外，论文还揭示了在多模型场景下，人工干预可能产生的负面影响，这为未来的模型训练策略提供了新的视角。

关键设计：论文在模型设计上，没有具体限定模型的类型，可以是任何类型的机器学习模型。关键在于对模型间数据传递关系的建模，以及对人工干预效果的量化。论文可能使用了博弈论或者动态系统理论中的相关工具，来分析模型的收敛性和稳定性。具体的损失函数和网络结构等细节，取决于具体的实验设置和模型选择。

🖼️ 关键图片

📊 实验亮点

论文通过理论分析和实验验证，证明了在多模型自消费训练中，人工干预的效果可能被其他模型抵消甚至反转，从而损害整体的长期对齐性能。具体的性能数据和提升幅度未知，但研究揭示了多模型交互的复杂性，为未来的研究方向提供了重要启示。

🎯 应用场景

该研究成果可应用于大型语言模型、推荐系统、图像生成等领域，尤其是在多个模型协同训练的场景下。通过理解人工干预在多模型自消费循环中的潜在负面影响，可以设计更有效的训练策略，避免模型偏差放大，提高模型的长期对齐性能，最终提升AI系统的可靠性和安全性。

📄 摘要（原文）

Foundation models are increasingly trained on synthetic data generated by prior model iterations rather than exclusively on real data. This self-consuming training paradigm can lead to model collapse, divergence, or bias amplification. Recent work (Ferbach et al., 2024) shows that incorporating human curation into the loop can steer a self-consuming model toward human-aligned behavior, but these analyses focus on a single, isolated model that solely consumes its own outputs. In practice, however, models often interact and train on input-output pairs produced by other models. This paper studies self-consuming training in the multi-model regime. We first formalize a framework for interacting self-consuming models and characterize when the resulting dynamical system converges to a stable point. We then examine how human curation of one model affects its own alignment (self-influence) and how such effects propagate to other models (cross-influence). Unlike isolated settings where human curation always enhances model alignment, we show that cross-model interactions can dampen or even invert this effect, ultimately degrading long-term alignment.

When and How Human Curation Backfires: Preference Alignment under Multi-Model Self-Consuming Loop

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理