Omni-Attribute: Open-vocabulary Attribute Encoder for Visual Concept Personalization

作者: Tsai-Shien Chen, Aliaksandr Siarohin, Guocheng Gordon Qian, Kuan-Chieh Jackson Wang, Egor Nemchinov, Moayed Haji-Ali, Riza Alp Guler, Willi Menapace, Ivan Skorokhodov, Anil Kag, Jun-Yan Zhu, Sergey Tulyakov

分类: cs.CV

发布日期: 2025-12-11

备注: Project page: https://snap-research.github.io/omni-attribute

💡 一句话要点

提出Omni-Attribute，用于视觉概念个性化的开放词汇属性编码器。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 视觉概念个性化 属性编码器 开放词汇 图像属性 对比学习

📋 核心要点

现有视觉概念个性化方法依赖于纠缠多种视觉因素的整体嵌入，难以隔离特定属性。
Omni-Attribute通过联合设计数据和模型，学习高保真、属性特定的表示，实现开放词汇属性编码。
实验表明，Omni-Attribute在属性检索、个性化和组合生成方面达到SOTA性能。

📝 摘要（中文）

视觉概念个性化旨在将特定的图像属性（如身份、表情、光照和风格）迁移到未见过的上下文中。然而，现有方法依赖于通用图像编码器的整体嵌入，这些嵌入纠缠了多个视觉因素，难以分离单个属性，导致信息泄露和合成不连贯。为了解决这个限制，我们提出了Omni-Attribute，这是第一个开放词汇图像属性编码器，旨在学习高保真、特定于属性的表示。我们的方法联合设计了数据和模型：（i）我们策划了语义链接的图像对，并标注了正负属性，以明确地教导编码器保留或抑制什么；（ii）我们采用了一种双目标训练范式，平衡了生成保真度和对比解耦。实验结果表明，该编码器在开放词汇属性检索、个性化和组合生成方面非常有效，并在多个基准测试中实现了最先进的性能。

🔬 方法详解

问题定义：现有视觉概念个性化方法依赖于通用图像编码器提取的整体嵌入，这些嵌入往往将多个视觉因素（如身份、表情、光照、风格等）纠缠在一起。这使得在进行属性迁移时难以精确控制，容易导致信息泄露，最终合成的图像可能出现不连贯或不符合预期的效果。因此，如何解耦不同的视觉属性，并学习到特定属性的独立表示，是该论文要解决的核心问题。

核心思路：论文的核心思路是设计一个开放词汇图像属性编码器（Omni-Attribute），该编码器能够学习到高保真、特定于属性的图像表示。为了实现这一目标，论文采用了数据和模型联合设计的方法。一方面，通过构建包含正负属性标注的语义链接图像对，显式地指导编码器学习哪些属性应该保留，哪些属性应该抑制。另一方面，采用双目标训练范式，平衡生成保真度和对比解耦，从而保证编码器能够生成高质量的图像，同时又能将不同的属性解耦开来。

技术框架：Omni-Attribute的整体框架包含以下几个主要部分：1) 数据集构建：构建包含语义链接图像对的数据集，并对图像对进行正负属性标注。2) 属性编码器：设计一个开放词汇图像属性编码器，用于提取图像的属性表示。3) 生成器：使用属性编码器提取的属性表示作为输入，生成目标图像。4) 判别器：用于判别生成图像的真伪，并促进生成器生成高质量的图像。5) 训练过程：采用双目标训练范式，同时优化生成保真度和对比解耦两个目标。

关键创新：该论文最重要的技术创新点在于提出了Omni-Attribute，这是第一个开放词汇图像属性编码器。与现有方法相比，Omni-Attribute能够学习到高保真、特定于属性的图像表示，从而更好地控制属性迁移过程，避免信息泄露，并生成更连贯、更符合预期的图像。此外，论文提出的数据和模型联合设计方法，以及双目标训练范式，也为属性解耦和图像生成提供了新的思路。

关键设计：在数据集构建方面，论文精心设计了语义链接图像对，并标注了正负属性，用于显式地指导编码器学习。在模型设计方面，论文采用了Transformer架构作为属性编码器的基础，并引入了注意力机制，用于关注图像中与特定属性相关的区域。在损失函数设计方面，论文采用了对抗损失、重建损失和对比损失，分别用于保证生成图像的质量、保持图像的内容一致性和解耦不同的属性。

🖼️ 关键图片

📊 实验亮点

Omni-Attribute在多个基准测试中取得了最先进的性能。例如，在属性检索任务中，Omni-Attribute的检索准确率比现有方法提高了显著的百分比。在图像个性化和组合生成任务中，Omni-Attribute生成的图像质量更高，属性控制更精确，视觉效果更自然。

🎯 应用场景

Omni-Attribute在图像编辑、风格迁移、人脸属性操作等领域具有广泛的应用前景。它可以用于个性化图像生成，例如根据用户的需求修改图像的特定属性，或者将一个人的身份、表情迁移到另一张图像上。此外，该技术还可以应用于虚拟现实、游戏等领域，用于生成更逼真、更具表现力的虚拟角色。

📄 摘要（原文）

Visual concept personalization aims to transfer only specific image attributes, such as identity, expression, lighting, and style, into unseen contexts. However, existing methods rely on holistic embeddings from general-purpose image encoders, which entangle multiple visual factors and make it difficult to isolate a single attribute. This often leads to information leakage and incoherent synthesis. To address this limitation, we introduce Omni-Attribute, the first open-vocabulary image attribute encoder designed to learn high-fidelity, attribute-specific representations. Our approach jointly designs the data and model: (i) we curate semantically linked image pairs annotated with positive and negative attributes to explicitly teach the encoder what to preserve or suppress; and (ii) we adopt a dual-objective training paradigm that balances generative fidelity with contrastive disentanglement. The resulting embeddings prove effective for open-vocabulary attribute retrieval, personalization, and compositional generation, achieving state-of-the-art performance across multiple benchmarks.

Omni-Attribute: Open-vocabulary Attribute Encoder for Visual Concept Personalization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理