Omni-Attribute: Open-vocabulary Attribute Encoder for Visual Concept Personalization
作者: Tsai-Shien Chen, Aliaksandr Siarohin, Guocheng Gordon Qian, Kuan-Chieh Jackson Wang, Egor Nemchinov, Moayed Haji-Ali, Riza Alp Guler, Willi Menapace, Ivan Skorokhodov, Anil Kag, Jun-Yan Zhu, Sergey Tulyakov
分类: cs.CV
发布日期: 2025-12-11
备注: Project page: https://snap-research.github.io/omni-attribute
💡 一句话要点
提出Omni-Attribute,用于视觉概念个性化的开放词汇属性编码器。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 视觉概念个性化 属性编码器 开放词汇 图像属性 对比学习
📋 核心要点
- 现有视觉概念个性化方法依赖于纠缠多种视觉因素的整体嵌入,难以隔离特定属性。
- Omni-Attribute通过联合设计数据和模型,学习高保真、属性特定的表示,实现开放词汇属性编码。
- 实验表明,Omni-Attribute在属性检索、个性化和组合生成方面达到SOTA性能。
📝 摘要(中文)
视觉概念个性化旨在将特定的图像属性(如身份、表情、光照和风格)迁移到未见过的上下文中。然而,现有方法依赖于通用图像编码器的整体嵌入,这些嵌入纠缠了多个视觉因素,难以分离单个属性,导致信息泄露和合成不连贯。为了解决这个限制,我们提出了Omni-Attribute,这是第一个开放词汇图像属性编码器,旨在学习高保真、特定于属性的表示。我们的方法联合设计了数据和模型:(i)我们策划了语义链接的图像对,并标注了正负属性,以明确地教导编码器保留或抑制什么;(ii)我们采用了一种双目标训练范式,平衡了生成保真度和对比解耦。实验结果表明,该编码器在开放词汇属性检索、个性化和组合生成方面非常有效,并在多个基准测试中实现了最先进的性能。
🔬 方法详解
问题定义:现有视觉概念个性化方法依赖于通用图像编码器提取的整体嵌入,这些嵌入往往将多个视觉因素(如身份、表情、光照、风格等)纠缠在一起。这使得在进行属性迁移时难以精确控制,容易导致信息泄露,最终合成的图像可能出现不连贯或不符合预期的效果。因此,如何解耦不同的视觉属性,并学习到特定属性的独立表示,是该论文要解决的核心问题。
核心思路:论文的核心思路是设计一个开放词汇图像属性编码器(Omni-Attribute),该编码器能够学习到高保真、特定于属性的图像表示。为了实现这一目标,论文采用了数据和模型联合设计的方法。一方面,通过构建包含正负属性标注的语义链接图像对,显式地指导编码器学习哪些属性应该保留,哪些属性应该抑制。另一方面,采用双目标训练范式,平衡生成保真度和对比解耦,从而保证编码器能够生成高质量的图像,同时又能将不同的属性解耦开来。
技术框架:Omni-Attribute的整体框架包含以下几个主要部分:1) 数据集构建:构建包含语义链接图像对的数据集,并对图像对进行正负属性标注。2) 属性编码器:设计一个开放词汇图像属性编码器,用于提取图像的属性表示。3) 生成器:使用属性编码器提取的属性表示作为输入,生成目标图像。4) 判别器:用于判别生成图像的真伪,并促进生成器生成高质量的图像。5) 训练过程:采用双目标训练范式,同时优化生成保真度和对比解耦两个目标。
关键创新:该论文最重要的技术创新点在于提出了Omni-Attribute,这是第一个开放词汇图像属性编码器。与现有方法相比,Omni-Attribute能够学习到高保真、特定于属性的图像表示,从而更好地控制属性迁移过程,避免信息泄露,并生成更连贯、更符合预期的图像。此外,论文提出的数据和模型联合设计方法,以及双目标训练范式,也为属性解耦和图像生成提供了新的思路。
关键设计:在数据集构建方面,论文精心设计了语义链接图像对,并标注了正负属性,用于显式地指导编码器学习。在模型设计方面,论文采用了Transformer架构作为属性编码器的基础,并引入了注意力机制,用于关注图像中与特定属性相关的区域。在损失函数设计方面,论文采用了对抗损失、重建损失和对比损失,分别用于保证生成图像的质量、保持图像的内容一致性和解耦不同的属性。
🖼️ 关键图片
📊 实验亮点
Omni-Attribute在多个基准测试中取得了最先进的性能。例如,在属性检索任务中,Omni-Attribute的检索准确率比现有方法提高了显著的百分比。在图像个性化和组合生成任务中,Omni-Attribute生成的图像质量更高,属性控制更精确,视觉效果更自然。
🎯 应用场景
Omni-Attribute在图像编辑、风格迁移、人脸属性操作等领域具有广泛的应用前景。它可以用于个性化图像生成,例如根据用户的需求修改图像的特定属性,或者将一个人的身份、表情迁移到另一张图像上。此外,该技术还可以应用于虚拟现实、游戏等领域,用于生成更逼真、更具表现力的虚拟角色。
📄 摘要(原文)
Visual concept personalization aims to transfer only specific image attributes, such as identity, expression, lighting, and style, into unseen contexts. However, existing methods rely on holistic embeddings from general-purpose image encoders, which entangle multiple visual factors and make it difficult to isolate a single attribute. This often leads to information leakage and incoherent synthesis. To address this limitation, we introduce Omni-Attribute, the first open-vocabulary image attribute encoder designed to learn high-fidelity, attribute-specific representations. Our approach jointly designs the data and model: (i) we curate semantically linked image pairs annotated with positive and negative attributes to explicitly teach the encoder what to preserve or suppress; and (ii) we adopt a dual-objective training paradigm that balances generative fidelity with contrastive disentanglement. The resulting embeddings prove effective for open-vocabulary attribute retrieval, personalization, and compositional generation, achieving state-of-the-art performance across multiple benchmarks.