您的位置首页 >企业 >

Amazon利用AI将文字描述转成图片以强化产品探索能力

导读 给大家分享一篇关于 和手机的文章。相信很多朋友对 和手机还是不太了解,所以边肖也在网上搜集了一些关于手机和 的相关知识

给大家分享一篇关于 和手机的文章。相信很多朋友对 和手机还是不太了解,所以边肖也在网上搜集了一些关于手机和 的相关知识与大家分享。希望大家看完之后会喜欢。

亚马逊使用生成性对抗网络(GAN)根据文本产品描述生成匹配的产品示例,让购物者可以根据视觉引导逐步修正文本查询,直到能够检索到自己要找的产品。

亚马逊提到,创建对抗网络可以很好地处理图像合成任务。生成式对抗网络由两个网络组成,一个是生成式网络,旨在尽可能生成仿真的假样本,另一个是判别网络,试图识别生成式网络生成的假样本,区分真实样本。这两个网络一起训练,它们之间的竞争可以收敛到一个有用的生成模型上。

在这种亚马逊的情况下,使用生成的对抗网络可以让买家更容易探索想象中的衣服。例如,购物者可以通过文字描述“女性黑裤子”来搜索裤子产品,然后根据搜索结果添加“娇小”、“卡普里裤”等功能。系统根据新单词调整显示的图片。亚马逊是一个特殊的系统,添加新功能后可以保留旧的视觉特征,并产生与文本描述一致的颜色。

亚马逊应用的新方法叫做ReStGAN,它是从针对网络的文本到图像生成的常用StackGAN模型修改而来的。StackGAN将合成图像简化为两部分,一部分是从文本生成低分辨率图像,然后对图像进行采样,进一步生成具有材质和自然颜色的高分辨率图像。这两个程序都有自己的一代对抗网络,将两代对抗网络堆叠在一起就成了StackGAN。

亚马逊在StackGAN中加入了长短期记忆(LSTM)组件,这是一个用于按顺序处理序列输入的神经网络。亚马逊提到会和生成对抗网络一起训练长短期记忆,这个网络会随着一个又一个输入的单词逐渐修改图像。LSTM是一个递归神经网络(RNN),所以新的网络名称是递归StackGAN,缩写为ReStGAN。

由于从文字合成图像的任务仍然非常困难,为了降低复杂度,亚马逊将把应用范围限制在裤子、牛仔裤和短裤这三种类似的产品上,并对用于训练模型的图像进行标准化。除了去除背景,它还会剪切和调整大小,使它们的比例和形状相同。

新模型的训练大多采用无监督学习,即训练材料主要由产品名称和标准化图片组成,没有任何人工标注。但是,为了提高系统的稳定性,亚马逊使用了一个辅助分类器,根据裤子类型、颜色和适合的性别三个属性进行分类。

在颜色合成上,亚马逊提到传统的单词嵌入将颜色名词划分为同一组,但没有结合人类的感知经验。因此,亚马逊开发了一种新的颜色编码方法,他们在实验室颜色空间中对颜色进行分组。这个颜色空间的特点是色点之间的距离,这与人类对颜色差异的感知是一致的。亚马逊使用分组颜色来创建查询表,该表将视觉上相似的颜色映射到具有相同描述的字符。然而,创建颜色查询表的附加优点是模型可以合成具有自然颜色的图像。

亚马逊以可识别性和多样性为指标,计算类型、颜色和性别三个属性的得分,以比较ReStGAN和StackGAN模型。从类型和性别来看,前者的分数比后者提高了22%和27%,而颜色分数提高了100%。亚马逊提到,这意味着新的颜色模型是有效的。

本文就为大家讲解到这里了。

标签:

免责声明:本文由用户上传,如有侵权请联系删除!
Baidu
map