FASH-iCNN: Making Editorial Fashion Identity Inspectable Through Multimodal CNN Probing

作者: Morayo Danielle Adeyemi, Ryan A. Rossi, Franck Dernoncourt

分类: cs.CV, cs.HC, cs.IR, cs.MM

发布日期: 2026-04-29

备注: 5 pages, 4 tables, 1 figure. Under review

💡 一句话要点

FASH-iCNN：通过多模态CNN探究可解释的时尚编辑风格

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 时尚AI 多模态学习 CNN 可解释性 时尚风格识别 视觉通道探究 服装图像分析

📋 核心要点

现有时尚AI系统通常在不公开的情况下编码特定品牌、编辑和历史时刻的美学逻辑，缺乏可解释性。
FASH-iCNN通过多模态CNN学习时尚图像的品牌、年代和色彩风格，并探究不同视觉通道的重要性，实现文化逻辑的可视化。
实验表明，FASH-iCNN在品牌、年代和年份识别上表现出色，并揭示了纹理和亮度是编辑风格的关键视觉特征。

📝 摘要（中文）

本文提出FASH-iCNN，一个多模态系统，在1991-2024年间15个时尚品牌的87,547张Vogue时装秀图片上进行训练，旨在使时尚界的文化逻辑可被探究。给定服装照片，该系统可以识别其所属品牌、年代和色彩风格。仅使用服装的模型在14个品牌上的品牌识别准确率达到78.2%（top-1），年代识别准确率达到88.6%（top-1），年份识别准确率达到58.3%（top-1），平均误差仅为2.2年。通过探究哪些视觉通道携带这些信号，发现了一个明显的差异：去除颜色信息仅损失10.6%的品牌识别准确率，而去除纹理信息则损失37.6%，这表明纹理和亮度是编辑风格的主要载体。FASH-iCNN将编辑文化视为信号而非背景噪声，识别影响每个输出的品牌、年代和色彩风格，以便用户不仅可以看到系统预测的结果，还可以看到该预测中编码的品牌、编辑和历史时刻。

🔬 方法详解

问题定义：现有时尚AI系统如同黑盒，无法解释其决策依据，使得用户难以理解系统所编码的时尚文化逻辑。这些系统通常将时尚编辑风格视为噪声，而非有价值的信号。因此，需要一种能够识别和解释时尚风格来源的系统。

核心思路：FASH-iCNN的核心思路是将时尚图像的品牌、年代和色彩风格作为可学习的信号，通过多模态CNN学习这些信号与图像之间的关系。通过分析不同视觉通道对识别结果的影响，揭示哪些视觉特征是时尚风格的关键载体。这样设计使得系统不仅能够预测时尚属性，还能解释预测结果背后的文化逻辑。

技术框架：FASH-iCNN是一个多模态系统，主要包含以下几个阶段：1) 数据收集与预处理：收集Vogue时装秀图像，并进行裁剪和标准化等预处理操作。2) 模型训练：使用CNN模型，以服装图像作为输入，预测其所属品牌、年代和年份。3) 视觉通道探究：通过去除或修改图像的颜色、纹理等视觉通道，分析其对识别结果的影响。4) 结果可视化：将预测结果和影响因素可视化，以便用户理解系统所编码的时尚文化逻辑。

关键创新：FASH-iCNN最重要的技术创新点在于其将时尚编辑风格视为可学习的信号，并通过探究视觉通道的重要性，揭示了时尚风格的关键视觉特征。与现有方法不同，FASH-iCNN不仅关注预测准确率，更关注模型的可解释性，使得用户能够理解系统所编码的时尚文化逻辑。

关键设计：FASH-iCNN使用了标准的CNN架构，并针对时尚图像的特点进行了一些调整。例如，使用了较大的感受野来捕捉服装的整体风格。在损失函数方面，使用了交叉熵损失函数来衡量预测结果与真实标签之间的差异。此外，还设计了一系列实验来探究不同视觉通道对识别结果的影响，例如，通过将图像转换为灰度图来去除颜色信息，或者通过模糊图像来去除纹理信息。

🖼️ 关键图片

📊 实验亮点

FASH-iCNN在14个品牌上的品牌识别准确率达到78.2%（top-1），年代识别准确率达到88.6%（top-1），年份识别准确率达到58.3%（top-1），平均误差仅为2.2年。实验还表明，去除颜色信息仅损失10.6%的品牌识别准确率，而去除纹理信息则损失37.6%，这表明纹理和亮度是编辑风格的关键视觉特征。

🎯 应用场景

FASH-iCNN可应用于时尚设计、时尚推荐、时尚教育等领域。设计师可以利用该系统分析不同品牌和年代的风格特点，从而获得设计灵感。时尚推荐系统可以根据用户的个人风格，推荐符合其偏好的服装。时尚教育者可以使用该系统帮助学生理解时尚文化和历史。

📄 摘要（原文）

Fashion AI systems routinely encode the aesthetic logic of specific houses, editors, and historical moments without disclosing it. We present FASH-iCNN, a multimodal system trained on 87,547 Vogue runway images across 15 fashion houses spanning 1991-2024 that makes this cultural logic inspectable. Given a photograph of a garment, the system recovers which house produced it, which era it belongs to, and which color tradition it reflects. A clothing-only model identifies the fashion house at 78.2% top-1 across 14 houses, the decade at 88.6% top-1, and the specific year at 58.3% top-1 across 34 years with a mean error of just 2.2 years. Probing which visual channels carry this signal reveals a sharp dissociation: removing color costs only 10.6pp of house identity accuracy, while removing texture costs 37.6pp, establishing texture and luminance as the primary carriers of editorial identity. FASH-iCNN treats editorial culture as the signal rather than background noise, identifying which houses, eras, and color traditions shaped each output so that users can see not just what the system predicts but which houses, editors, and historical moments are encoded in that prediction.

FASH-iCNN: Making Editorial Fashion Identity Inspectable Through Multimodal CNN Probing

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理