PositionIC: Unified Position and Identity Consistency for Image Customization

作者: Junjie Hu, Tianyang Han, Kai Ma, Jialin Gao, Song Yang, Xianhua He, Junfeng Luo, Xiaoming Wei, Wenqiang Zhang

分类: cs.CV

发布日期: 2025-07-18 (更新: 2026-01-10)

💡 一句话要点

PositionIC：统一位置和身份一致性的图像定制框架

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱七：动作重定向 (Motion Retargeting)

关键词: 图像定制 空间控制 多主体 扩散模型 注意力机制 数据合成 NeRF 身份一致性

📋 核心要点

现有主体驱动的图像定制方法缺乏细粒度的空间控制，难以满足实际应用需求。
PositionIC通过自动数据合成流程BMPDS和可见性感知注意力机制，实现高保真、空间可控的多主体定制。
实验表明，PositionIC在空间精度和身份一致性方面均达到了最先进的性能。

📝 摘要（中文）

本文提出PositionIC，一个用于高保真、空间可控的多主体定制的统一框架。现有方法在主体驱动的图像定制方面表现出色，但缺乏细粒度的实例级空间控制，限制了实际应用。这源于缺乏可扩展的、位置标注的数据集，以及全局注意力机制对身份和布局的纠缠。为此，我们提出了BMPDS，这是第一个用于位置标注的多主体数据集的自动数据合成流程，有效提供了关键的空间监督。此外，我们设计了一个轻量级的、布局感知的扩散框架，该框架集成了新颖的可见性感知注意力机制，通过NeRF启发的体积权重调节显式地建模空间关系，从而有效地将实例级空间嵌入与语义身份特征解耦，实现精确的、具有遮挡感知的多主体放置。大量实验表明，PositionIC在公共基准上实现了最先进的性能，并在空间精度和身份一致性方面创造了新纪录。这项工作代表着在多实体场景中实现真正可控、高保真图像定制的重要一步。代码和数据将公开发布。

🔬 方法详解

问题定义：现有主体驱动的图像定制方法虽然在保真度方面表现出色，但缺乏细粒度的实例级空间控制。这主要是因为缺乏大规模的位置标注数据集，以及全局注意力机制将身份和布局信息纠缠在一起，导致无法精确控制图像中多个主体的空间位置和相互关系。

核心思路：PositionIC的核心思路是通过解耦实例级的空间嵌入和语义身份特征，实现对图像中多个主体的精确空间控制。具体来说，它首先通过自动数据合成流程生成带有位置标注的多主体数据集，然后设计一种可见性感知注意力机制，显式地建模主体之间的空间关系，从而实现遮挡感知的多主体放置。

技术框架：PositionIC的整体框架包含两个主要部分：BMPDS数据合成流程和布局感知的扩散框架。BMPDS负责生成带有位置标注的多主体数据集，为模型提供空间监督。布局感知的扩散框架则利用该数据集进行训练，并通过可见性感知注意力机制实现对图像中多个主体的空间控制。

关键创新：PositionIC的关键创新在于提出了BMPDS数据合成流程和可见性感知注意力机制。BMPDS能够自动生成大规模的位置标注数据集，解决了数据稀缺的问题。可见性感知注意力机制则通过NeRF启发的体积权重调节，显式地建模主体之间的空间关系，从而有效地解耦了实例级的空间嵌入和语义身份特征。

关键设计：可见性感知注意力机制的关键设计在于使用NeRF启发的体积权重来调节注意力权重。具体来说，它首先根据主体的位置信息计算一个体积权重，然后将该权重与注意力权重相乘，从而使得模型更加关注可见的主体，并减少遮挡的影响。此外，损失函数的设计也考虑了空间一致性，鼓励模型生成符合空间关系的主体布局。

🖼️ 关键图片

📊 实验亮点

PositionIC在公共基准测试中取得了最先进的性能，并在空间精度和身份一致性方面创造了新的记录。实验结果表明，PositionIC能够生成具有高度空间控制和身份一致性的图像，显著优于现有的主体驱动图像定制方法。具体性能数据将在论文中详细展示。

🎯 应用场景

PositionIC可应用于图像编辑、虚拟现实、游戏开发等领域。例如，用户可以通过指定多个主体的空间位置和身份信息，生成具有特定布局和风格的图像。该技术还可以用于创建逼真的虚拟场景，或者为游戏角色定制外观和行为。

📄 摘要（原文）

Recent subject-driven image customization excels in fidelity, yet fine-grained instance-level spatial control remains an elusive challenge, hindering real-world applications. This limitation stems from two factors: a scarcity of scalable, position-annotated datasets, and the entanglement of identity and layout by global attention mechanisms. To this end, we introduce \modelname{}, a unified framework for high-fidelity, spatially controllable multi-subject customization. First, we present BMPDS, the first automatic data-synthesis pipeline for position-annotated multi-subject datasets, effectively providing crucial spatial supervision. Second, we design a lightweight, layout-aware diffusion framework that integrates a novel visibility-aware attention mechanism. This mechanism explicitly models spatial relationships via an NeRF-inspired volumetric weight regulation to effectively decouple instance-level spatial embeddings from semantic identity features, enabling precise, occlusion-aware placement of multiple subjects. Extensive experiments demonstrate \modelname{} achieves state-of-the-art performance on public benchmarks, setting new records for spatial precision and identity consistency. Our work represents a significant step towards truly controllable, high-fidelity image customization in multi-entity scenarios. Code and data will be publicly released.

PositionIC: Unified Position and Identity Consistency for Image Customization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理