SYNTHIA: Novel Concept Design with Affordance Composition

📄 arXiv: 2502.17793v4 📥 PDF

作者: Hyeonjeong Ha, Xiaomeng Jin, Jeonghwan Kim, Jiateng Liu, Zhenhailong Wang, Khanh Duy Nguyen, Ansel Blume, Nanyun Peng, Kai-Wei Chang, Heng Ji

分类: cs.CV, cs.AI

发布日期: 2025-02-25 (更新: 2025-12-04)

备注: ACL 2025 Main, Code is available https://github.com/HyeonjeongHa/SYNTHIA


💡 一句话要点

SYNTHIA:基于功能可供性组合的创新概念设计框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 文生图 概念设计 可供性组合 功能连贯性 课程学习 对比学习 分层概念本体

📋 核心要点

  1. 现有文生图模型缺乏对功能连贯性的有效建模,难以生成具有多种可供性组合的新颖设计。
  2. SYNTHIA框架利用分层概念本体指导模型学习可供性组合,并采用课程学习策略逐步提升模型能力。
  3. 实验表明,SYNTHIA在生成新颖且功能连贯的设计方面显著优于现有文生图模型,提升幅度可观。

📝 摘要(中文)

本文提出SYNTHIA,一个基于所需可供性生成新颖、功能连贯设计的框架。现有文生图模型侧重于生成设计概念的语义和风格变体,而功能连贯性(将多种可供性整合到单个连贯概念中)在很大程度上被忽视。SYNTHIA利用分层概念本体,将概念分解为部件和可供性,作为功能连贯设计的关键构建块。此外,还开发了一种基于本体的课程学习方案,对比微调文生图模型,以逐步学习可供性组合,同时保持视觉新颖性。具体来说,(i) 逐步增加可供性距离,引导模型从基本概念-可供性关联到复杂的可供性组合,将不同可供性的部件整合到单个连贯形式中,并且 (ii) 通过采用对比目标来推离现有概念的学习表征,从而强制视觉新颖性。实验结果表明,SYNTHIA优于最先进的文生图模型,在人类评估中,新颖性和功能连贯性分别实现了25.1%和14.7%的绝对提升。

🔬 方法详解

问题定义:现有文生图(T2I)模型在概念设计中被广泛应用,但它们主要关注于生成语义和风格上的变体,忽略了设计的功能连贯性,即如何将多个可供性(affordance)整合到一个单一且连贯的概念中。因此,现有模型难以生成既新颖又具有实际功能的复杂设计。

核心思路:SYNTHIA的核心思路是利用分层概念本体来指导T2I模型学习可供性组合。通过将概念分解为部件和可供性,模型可以更好地理解不同可供性之间的关系,并学习如何将它们组合成一个功能连贯的整体。此外,采用课程学习策略,逐步增加学习难度,使模型能够从简单的概念-可供性关联逐渐过渡到复杂的可供性组合。

技术框架:SYNTHIA框架主要包含以下几个关键模块:1) 分层概念本体:用于将概念分解为部件和可供性,并定义它们之间的关系。2) 课程学习方案:逐步增加可供性距离,引导模型从基本概念-可供性关联到复杂的可供性组合。3) 对比学习目标:通过推离现有概念的学习表征,强制视觉新颖性。整体流程是,首先利用概念本体构建训练数据,然后通过课程学习和对比学习微调T2I模型,最终生成新颖且功能连贯的设计。

关键创新:SYNTHIA的关键创新在于:1) 提出了基于分层概念本体的可供性组合方法,能够有效地建模设计的功能连贯性。2) 设计了课程学习方案,逐步引导模型学习复杂的可供性组合。3) 结合对比学习,保证生成设计的视觉新颖性。与现有方法相比,SYNTHIA能够更好地平衡功能连贯性和视觉新颖性。

关键设计:课程学习方案中,逐步增加可供性距离的具体实现方式未知,但推测可能是通过控制训练样本中不同可供性概念之间的语义距离来实现。对比学习目标的设计细节未知,但可以推测是采用了某种对比损失函数,例如InfoNCE,来最大化生成设计与现有概念之间的表征差异。分层概念本体的具体构建方法和所包含的信息类型未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SYNTHIA在人类评估中,新颖性和功能连贯性分别实现了25.1%和14.7%的绝对提升,显著优于最先进的文生图模型。这表明SYNTHIA能够有效地生成既新颖又具有实际功能的复杂设计,验证了其有效性和优越性。

🎯 应用场景

SYNTHIA框架可应用于各种AI驱动的设计场景,例如产品设计、建筑设计、游戏设计等。它可以帮助设计师快速生成具有特定功能和风格的新颖概念,提高设计效率和创造力。此外,该框架还可以用于教育领域,帮助学生更好地理解和掌握设计原则。

📄 摘要(原文)

Text-to-image (T2I) models enable rapid concept design, making them widely used in AI-driven design. While recent studies focus on generating semantic and stylistic variations of given design concepts, functional coherence--the integration of multiple affordances into a single coherent concept--remains largely overlooked. In this paper, we introduce SYNTHIA, a framework for generating novel, functionally coherent designs based on desired affordances. Our approach leverages a hierarchical concept ontology that decomposes concepts into parts and affordances, serving as a crucial building block for functionally coherent design. We also develop a curriculum learning scheme based on our ontology that contrastively fine-tunes T2I models to progressively learn affordance composition while maintaining visual novelty. To elaborate, we (i) gradually increase affordance distance, guiding models from basic concept-affordance association to complex affordance compositions that integrate parts of distinct affordances into a single, coherent form, and (ii) enforce visual novelty by employing contrastive objectives to push learned representations away from existing concepts. Experimental results show that SYNTHIA outperforms state-of-the-art T2I models, demonstrating absolute gains of 25.1% and 14.7% for novelty and functional coherence in human evaluation, respectively.