当前位置 : 主页 > 网络推广 > seo >

论文阅读理解 - Automatic Spatially-aware Fashion Concept Discovery

来源:互联网 收集:自由互联 发布时间:2021-06-16
论文阅读理解 - Automatic Spatially-aware Fashion Concept Discovery [Paper - Automatic Spatially-aware Fashion Concept Discovery - ICCV2017] [Fashion200K - Dataset] 主要是应用属性(Attributes)在图片中的空间位置信息,表

论文阅读理解 - Automatic Spatially-aware Fashion Concept Discovery

[Paper - Automatic Spatially-aware Fashion Concept Discovery - ICCV2017]

[Fashion200K - Dataset]

主要是应用属性(Attributes)在图片中的空间位置信息,表现为 activation map 形式;
结合 Word2Vec 生成文本描述的特征向量.
可用于图像检索(基于attributes-feedback),数据集中特定属性的图像浏览.

对比一般图片,服装图片的特点:

  • 服装易受形变影响;
  • 风格(style)和纹理(texture) 的变化显著;
  • 最重要的是,low-level 的视觉和用户 high-level 需求之间长期存在较大的语义鸿沟.
  • 对于用户来说,不仅需要颜色(color) 和纹理(texture)的特征,还需要 high-level 特征,如领型(neckline)、袖长(sleeve length)、裙长(dress length) 等.
  • 领型属性往往对应于图片的靠上部分;袖长属性一般在图片的左右两边.

服装属性特点分析.

基于 weakly labeld image-text 电商数据 —— Fashion200K.

  • 首先,采用微调 GoogleNet,对服装图片和其对应的属性描述联合建模到一个视觉语义嵌入空间(visual-semantic embedding space).
  • 然后,对于每一个属性(word),通过结合其语义词向量表示(semantic word vector respentation) 和其由微调网络卷积图(conv map)得到的空间表示(spatial respentation),来生成各属性的 spatial-aware 表示.
  • 对得到的 spatial-aware 表示,聚类到各个不同的组,以形成属性概念(spatially-aware concepts),如领型概念可能包括的属性有:V-领,圆领等;
  • 最后,将视觉嵌入语义空间分解为多个不同概念的子空间(concept-specific subspaces),有助于结构化浏览、基于属性反馈(attribute-feedback)的检索等.

方法优势:

  • 1,说明了属性和其空间表示的语义词向量,可以有效的用于聚类得到语义丰富和 spatially-aware 概念(concepts).
  • 2,利用视觉语义空间中的语义规律,以进行基于 attribute-feedback 的服装图片检索.

1. Fashion200K 服装数据集

Fashion200K:

  • 超过 200000 张服装图片,5 类(dress, top, pants, skirt, jacket),对应的商品描述.
  • 172049 张训练,12164 张测试,25331 张测试
  • 4404 个属性用于训练
  • MultiBox 模型检测图片,只采用检测到的前景部分作为输入.

2. Approach

方法主要包括的关键部分:

  • 视觉语义嵌入学习 visual-semantic embedding learning
  • 空间概念挖掘 spatially-aware concept discovery
  • 概念子空间学习 concept subspace learning

方法利用了属性(attribute) 的空间信息. 不同类型服装的相同属性(如,短裙和短裤的 short 属性)具有不同的空间特点.

针对每一类服装分别训练模型.

2.1 视觉语义嵌入学习

通过将商品图片和对应的文本描述投影到一个联合嵌入空间,根据 image-text pairs 来训练视觉语义嵌入模型.

  • 对图片,主要是基于 GoogleNet 模型学习图片特征向量,然后将特征响亮投影到嵌入空间.
  • 对文本,主要是采用 Bag of Words 来得到其文本描述.

采用 cosine 相似度来度量图片和其描述的距离: d ( x , v ) = x v .

联合嵌入空间训练的最优化函数为 contrastive loss:

v k - 图片 x 的 non-mathching 描述;

x k - 描述 v 的 non-matching 图片;

最小化该 loss 函数的目标,

  • 使得图片 x 与其对应的文本描述 v 之间的距离小于该图片与未匹配的文本描述 v k 之间的距离,基于某个边缘参数 m .
  • 使得描述 v 与其对应的图片 x 之间的距离小与该描述与未匹配的图片 x k 之间距离.

2.2 空间概念挖掘

视觉语义嵌入模型的联合训练,能够得到判别性 CNN 模型,不仅包含了语义信息(如,最后一个 embedding 层),还包括隐藏在网络里的空间信息.

  • 属性空间表示

    属性的空间信息对于理解服装商品的属性位置很重要.

    采用 EAAM(Embedding Attribute Activation Maps) 来定位图片中属性的显著区域,基于训练网络,单次 forward 计算.

    电商图片往往是背景简单,且正向对齐的.

    对于服装类别的每一个属性,其 AAM 信息可以作为一种空间表示. 如果两个属性描述的是服装类别的相似空间部分,如 sleeveless 和 long-sleeve,或 v-neck 和 mockneck 等,那么它们的空间信息应该是相似的.

  • 属性语义表示

    仅仅根据空间信息还不足以有效的挖掘服装概念,尤其是对于属性的判别性空间表示不够时.

    对服装商品的描述训练 skip-gram model ,以得到数据集所有属性的语义表示(Word2vec Vectors).

  • 属性聚类 Attribute Clustering

    理想情况下, 属于相同概念的属性应该描述服装类别的相同特点. 即,具有空间一致性和语义相似性.

    K-means 聚类算法对所有属性聚类,得到不同的属性组.

  • 概念子空间学习

    挖掘得到的概念(concepts) 用于进一步提升(refine) 学习的联合视觉语义空间,使得商品(items)间的相似性可以通过每个独立的概念进行度量,如 color 和 neckline 可以得到不同的相似性.

    当客户需要改变某方面属性来提升搜索结果,或者希望基于某一个概念来浏览商品时,概念子空间学习是有必要的.

    给定由属性聚类来挖掘的到的概念,进一步对每个 concept 训练子网络,构建 concepy-specific 子空间.

    子网络结构:一层全连接网络层和一个 softmax 网络层.

    子空间训练后,concept 子空间特征能够学习 concept 的属性(attributes). 因此,只基于该 concept 能够进行图片间的相似性度量.

    如,在 color 子空间中,blue maxi dress 与 blue mini dress 间的相似性高于其与 red maxi dress 的相似性.

    然而,在 dress length 子空间中,red maxi dress 与 blue maxi dress 的相似性更高.

3. Experiment

  • 服装检测 - MultiBox

  • 视觉语义嵌入 - GoogleNet InceptionV3,2048-dim 特征

  • 空间概念挖掘 - CNN 最后一层卷积层 feature map 尺寸 8 × 8 × 2048 ,attribute map 尺寸 8 × 8 . 向量化 activation map,每个属性的空间表示转化为 64 维特征向量.

    Word2Vec 训练时的 word 向量维度也设为 64.

    聚类中心固定为 50.

  • 子空间特征学习




网友评论