TATTOO: Training-free AesTheTic-aware Outfit recOmmendation
作者: Yuntian Wu, Xiaonan Hu, Ziqi Zhou, Hao Lu
分类: cs.CV
发布日期: 2025-09-27
备注: 4 figures, 4 tables
💡 一句话要点
提出TATTOO:一种无需训练且具有美学感知能力的服装搭配推荐方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 服装搭配推荐 多模态大语言模型 零样本学习 美学感知 链式思考
📋 核心要点
- 现有服装搭配推荐方法依赖大量标注数据进行训练,成本高昂,且缺乏对人类美学的显式建模。
- TATTOO利用多模态大语言模型,无需训练即可生成目标物品描述和美学特征,实现美学感知的服装推荐。
- 在Aesthetic-100数据集上,TATTOO取得了state-of-the-art的性能,并在Polyvore数据集上展示了优秀的零样本检索能力。
📝 摘要(中文)
全球时尚电商市场严重依赖智能且具有美学感知的服装搭配工具来促进销售。虽然之前的研究已经探讨了服装搭配和兼容物品检索的问题,但它们大多需要在大规模标注数据上进行昂贵的、特定于任务的训练,并且没有努力用明确的人类美学来指导服装推荐。在多模态大型语言模型(MLLM)时代,我们展示了传统的基于训练的流程可以简化为无需训练的模式,从而获得更好的推荐分数并增强美学感知。我们通过TATTOO来实现这一点,这是一种无需训练且具有美学感知能力的服装推荐方法。它首先使用MLLM生成目标物品描述,然后使用美学链式思考将图像提炼成结构化的美学配置文件,包括颜色、风格、场合、季节、材料和平衡。通过使用动态熵门控机制将服装的视觉摘要与文本描述和美学向量融合,候选物品可以在共享嵌入空间中表示并相应地排序。在真实世界的评估集Aesthetic-100上的实验表明,与现有的基于训练的方法相比,TATTOO实现了最先进的性能。另一个标准的Polyvore数据集也被用来衡量我们无需训练方法的高级零样本检索能力。
🔬 方法详解
问题定义:现有服装搭配推荐方法需要大量标注数据进行训练,训练成本高昂。此外,这些方法通常缺乏对人类美学概念的显式建模,导致推荐结果可能不符合人类的审美偏好。因此,如何降低训练成本,并有效融入美学因素,是服装搭配推荐领域面临的重要挑战。
核心思路:TATTOO的核心思路是利用多模态大型语言模型(MLLM)的强大能力,在无需训练的情况下,直接从图像中提取目标物品的描述和美学特征。通过将视觉信息、文本描述和美学向量融合,可以在共享嵌入空间中表示候选物品,并根据其与目标物品的兼容性和美学契合度进行排序。
技术框架:TATTOO的整体框架包含以下几个主要阶段:1) 目标物品描述生成:使用MLLM生成目标物品的文本描述。2) 美学特征提取:通过美学链式思考(aesthetic chain-of-thought)将图像提炼成结构化的美学配置文件,包括颜色、风格、场合、季节、材料和平衡等。3) 特征融合:使用动态熵门控机制将视觉摘要、文本描述和美学向量融合。4) 候选物品排序:在共享嵌入空间中表示候选物品,并根据其与目标物品的兼容性和美学契合度进行排序。
关键创新:TATTOO的关键创新在于:1) 无需训练:摆脱了对大量标注数据的依赖,降低了训练成本。2) 美学感知:通过美学链式思考显式地建模了人类的美学概念,提高了推荐结果的美学质量。3) 动态熵门控机制:自适应地融合视觉、文本和美学特征,提高了推荐的准确性和鲁棒性。
关键设计:1) 美学链式思考:设计了一系列提示词,引导MLLM从图像中提取颜色、风格、场合、季节、材料和平衡等美学特征。2) 动态熵门控机制:使用熵来衡量不同特征的重要性,并根据熵值动态地调整特征的权重。具体实现细节(如损失函数、网络结构)论文中未明确说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
TATTOO在Aesthetic-100数据集上取得了state-of-the-art的性能,超越了现有的基于训练的方法。此外,TATTOO在Polyvore数据集上展示了优秀的零样本检索能力,表明其具有良好的泛化性能。具体的性能提升幅度在论文中未明确给出,属于未知信息。
🎯 应用场景
TATTOO可应用于电商平台的服装搭配推荐、虚拟试衣间、时尚顾问等场景,帮助用户快速找到符合自身风格和审美偏好的服装搭配方案,提升购物体验和销售额。该研究成果有望推动服装搭配推荐领域的发展,并为其他需要美学感知的推荐系统提供借鉴。
📄 摘要(原文)
The global fashion e-commerce market relies significantly on intelligent and aesthetic-aware outfit-completion tools to promote sales. While previous studies have approached the problem of fashion outfit-completion and compatible-item retrieval, most of them require expensive, task-specific training on large-scale labeled data, and no effort is made to guide outfit recommendation with explicit human aesthetics. In the era of Multimodal Large Language Models (MLLMs), we show that the conventional training-based pipeline could be streamlined to a training-free paradigm, with better recommendation scores and enhanced aesthetic awareness. We achieve this with TATTOO, a Training-free AesTheTic-aware Outfit recommendation approach. It first generates a target-item description using MLLMs, followed by an aesthetic chain-of-thought used to distill the images into a structured aesthetic profile including color, style, occasion, season, material, and balance. By fusing the visual summary of the outfit with the textual description and aesthetics vectors using a dynamic entropy-gated mechanism, candidate items can be represented in a shared embedding space and be ranked accordingly. Experiments on a real-world evaluation set Aesthetic-100 show that TATTOO achieves state-of-the-art performance compared with existing training-based methods. Another standard Polyvore dataset is also used to measure the advanced zero-shot retrieval capability of our training-free method.