论文阅读理解 - Automatic Spatially-aware Fashion Concept Discovery
[Paper - Automatic Spatially-aware Fashion Concept Discovery - ICCV2017]
[Fashion200K - Dataset]
主要是应用属性(Attributes)在图片中的空间位置信息,表现为 activation map 形式;
结合 Word2Vec 生成文本描述的特征向量.
可用于图像检索(基于attributes-feedback),数据集中特定属性的图像浏览.
对比一般图片,服装图片的特点:
- 服装易受形变影响;
- 风格(style)和纹理(texture) 的变化显著;
- 最重要的是,low-level 的视觉和用户 high-level 需求之间长期存在较大的语义鸿沟.
- 对于用户来说,不仅需要颜色(color) 和纹理(texture)的特征,还需要 high-level 特征,如领型(neckline)、袖长(sleeve length)、裙长(dress length) 等.
- 领型属性往往对应于图片的靠上部分;袖长属性一般在图片的左右两边.
服装属性特点分析.
基于 weakly labeld image-text 电商数据 —— Fashion200K.
- 首先,采用微调 GoogleNet,对服装图片和其对应的属性描述联合建模到一个视觉语义嵌入空间(visual-semantic embedding space).
- 然后,对于每一个属性(word),通过结合其语义词向量表示(semantic word vector respentation) 和其由微调网络卷积图(conv map)得到的空间表示(spatial respentation),来生成各属性的 spatial-aware 表示.
- 对得到的 spatial-aware 表示,聚类到各个不同的组,以形成属性概念(spatially-aware concepts),如领型概念可能包括的属性有:V-领,圆领等;
- 最后,将视觉嵌入语义空间分解为多个不同概念的子空间(concept-specific subspaces),有助于结构化浏览、基于属性反馈(attribute-feedback)的检索等.
方法优势:
- 1,说明了属性和其空间表示的语义词向量,可以有效的用于聚类得到语义丰富和 spatially-aware 概念(concepts).
- 2,利用视觉语义空间中的语义规律,以进行基于 attribute-feedback 的服装图片检索.
1. Fashion200K 服装数据集
Fashion200K:
- 超过 200000 张服装图片,5 类(dress, top, pants, skirt, jacket),对应的商品描述.
- 172049 张训练,12164 张测试,25331 张测试
- 4404 个属性用于训练
- MultiBox 模型检测图片,只采用检测到的前景部分作为输入.
2. Approach
方法主要包括的关键部分:
- 视觉语义嵌入学习 visual-semantic embedding learning
- 空间概念挖掘 spatially-aware concept discovery
- 概念子空间学习 concept subspace learning
方法利用了属性(attribute) 的空间信息. 不同类型服装的相同属性(如,短裙和短裤的 short 属性)具有不同的空间特点.
针对每一类服装分别训练模型.
2.1 视觉语义嵌入学习
通过将商品图片和对应的文本描述投影到一个联合嵌入空间,根据 image-text pairs 来训练视觉语义嵌入模型.
- 对图片,主要是基于 GoogleNet 模型学习图片特征向量,然后将特征响亮投影到嵌入空间.
- 对文本,主要是采用 Bag of Words 来得到其文本描述.
采用 cosine 相似度来度量图片和其描述的距离: .
联合嵌入空间训练的最优化函数为 contrastive loss:
- 图片 的 non-mathching 描述;
- 描述 的 non-matching 图片;
最小化该 loss 函数的目标,
- 使得图片 与其对应的文本描述 之间的距离小于该图片与未匹配的文本描述 之间的距离,基于某个边缘参数 .
- 使得描述 与其对应的图片 之间的距离小与该描述与未匹配的图片 之间距离.
2.2 空间概念挖掘
视觉语义嵌入模型的联合训练,能够得到判别性 CNN 模型,不仅包含了语义信息(如,最后一个 embedding 层),还包括隐藏在网络里的空间信息.
属性空间表示
属性的空间信息对于理解服装商品的属性位置很重要.
采用 EAAM(Embedding Attribute Activation Maps) 来定位图片中属性的显著区域,基于训练网络,单次 forward 计算.
电商图片往往是背景简单,且正向对齐的.
对于服装类别的每一个属性,其 AAM 信息可以作为一种空间表示. 如果两个属性描述的是服装类别的相似空间部分,如 sleeveless 和 long-sleeve,或 v-neck 和 mockneck 等,那么它们的空间信息应该是相似的.
属性语义表示
仅仅根据空间信息还不足以有效的挖掘服装概念,尤其是对于属性的判别性空间表示不够时.
对服装商品的描述训练 skip-gram model ,以得到数据集所有属性的语义表示(Word2vec Vectors).
属性聚类 Attribute Clustering
理想情况下, 属于相同概念的属性应该描述服装类别的相同特点. 即,具有空间一致性和语义相似性.
K-means 聚类算法对所有属性聚类,得到不同的属性组.
概念子空间学习
挖掘得到的概念(concepts) 用于进一步提升(refine) 学习的联合视觉语义空间,使得商品(items)间的相似性可以通过每个独立的概念进行度量,如 color 和 neckline 可以得到不同的相似性.
当客户需要改变某方面属性来提升搜索结果,或者希望基于某一个概念来浏览商品时,概念子空间学习是有必要的.
给定由属性聚类来挖掘的到的概念,进一步对每个 concept 训练子网络,构建 concepy-specific 子空间.
子网络结构:一层全连接网络层和一个 softmax 网络层.
子空间训练后,concept 子空间特征能够学习 concept 的属性(attributes). 因此,只基于该 concept 能够进行图片间的相似性度量.
如,在 color 子空间中,blue maxi dress 与 blue mini dress 间的相似性高于其与 red maxi dress 的相似性.
然而,在 dress length 子空间中,red maxi dress 与 blue maxi dress 的相似性更高.
3. Experiment
服装检测 - MultiBox
视觉语义嵌入 - GoogleNet InceptionV3,2048-dim 特征
空间概念挖掘 - CNN 最后一层卷积层 feature map 尺寸 ,attribute map 尺寸 . 向量化 activation map,每个属性的空间表示转化为 64 维特征向量.
Word2Vec 训练时的 word 向量维度也设为 64.
聚类中心固定为 50.
子空间特征学习