亚马逊的新AI技术使用户可以虚拟试穿服装

发布时间：2020-06-08 14:52:23 【来源：】

在定于IEEE计算机视觉和模式识别(CVPR)大会上发表的一系列论文中，亚马逊研究人员提出了互补的AI算法，这些算法可以构成帮助客户购物的助手的基础。一种是让人们通过描述产品图片上的变化来微调搜索查询，而另一种则是建议与客户已经选择的商品搭配使用的产品。同时，第三个模型合成了穿着不同产品页面上的衣服的模特形象，以演示物品如何作为服装一起工作。

亚马逊已经利用AI来推动Alexa的Style，这是亚马逊购物应用程序的一项功能，该功能使用算法和人工策划来建议，比较和评估服装。借助诸如Prime Wardrobe之类的风格建议和程序，该程序允许用户试穿衣服并退还他们不想购买的商品，这家零售商在争夺不断下降的服装市场中争夺更大份额的销售额，同时为客户提供通常不会出现的产品选择。对于表面上的企业来说，这是一个胜利-当然，除了推荐的配件是亚马逊自己拥有的情况外。

虚拟试穿网络

亚马逊硬件实验室Lab126的研究人员催生了Fire TV，Kindle Fire和Echo等产品，他们开发了名为Outfit-VITON的基于图像的虚拟试戴系统，旨在帮助可视化参考照片中的衣物在图像上的外观一个人。亚马逊表示，可以使用生成对抗网络(GAN)在一张图片上对其进行训练，这是一种模型，其中包含一个称为鉴别器的组件，用于学习区分生成的物品与真实图像。

“在线服装购物可让您在家中舒适自在地购物，提供多种选择的商品并使用最新的产品。但是，在线购物无法进行物理试穿，从而限制了客户对服装实际外观的理解。”研究人员写道。“这一关键局限性鼓励了虚拟试衣间的发展，在虚拟试衣间中，将综合生成穿着所选服装的顾客的图像，以帮助比较和选择最想要的外观。”

Outfit-VITON包含几个部分：一个形状生成模型，其输入是查询图像，用作最终图像的模板;以及任何数量的参考图像，这些图像描述了将从查询图像转移到模型的衣服。

在预处理中，已建立的技术会分割输入图像并计算代表其姿势和形状的查询人员的身体模型。选择要包含在最终图像中的片段传递到形状生成模型，该模型将它们与人体模型结合起来并更新查询图像的形状表示。该形状表示移动到第二个模型(外观生成模型)，该模型对有关纹理和颜色的信息进行编码，生成一个与形状表示结合的表示，以创建穿着衣服的人的照片。

Outfit-VITON的第三个模型可以微调外观生成模型的变量，以保留徽标或独特图案等功能，而不会影响轮廓，从而使Amazon声称的输出比以前的系统“更自然”。研究人员解释说：“我们的方法生成了一个几何上正确的分割图，该图改变了所选参考服装的形状以符合目标人群。”“该算法使用在线优化方案准确地合成精细的服装特征，例如纹理，徽标和刺绣，该方案可以对合成图像进行微调。”

视觉语言产品发现

其他论文之一解决了使用文本来优化与客户提供的查询相匹配的图像的挑战。亚马逊工程师的方法将文本描述和图像特征融合为不同粒度级别的表示形式，以便客户可以说出诸如“更正式的东西”之类的抽象内容或诸如“改变脖子的样式”之类的精确内容，并保留一些图像遵循客户指示更改其他功能。

该系统由经过三重输入训练的模型组成：源图像，文本修订版和与修订版匹配的目标图像。输入并行通过三个不同的子模型，并且在管道中的不同点处，在将源图像的表示与目标图像的表示相关联之前，将其与文本的表示进行融合。由于模型的较低层倾向于表示较低层的输入特征(例如，纹理和颜色)，而较高层的较高层特征(例如袖长或紧密度)，因此分层匹配有助于训练系统以确保其能够据亚马逊称，它可以处理不同分辨率的文字修改。

语言和视觉表示的每种融合都是由单独的两部分模型完成的。一种使用联合注意机制来识别在源图像和目标图像中应该相同的视觉特征，而另一种用于识别应该改变的特征。在测试中，研究人员说，与文本表现最好的版本相比，它有助于找到与文本修改有效匹配的频率高58%。

“图像搜索是计算机视觉中的一项基本任务。在这项工作中，我们调查了具有文本反馈的图像搜索任务，该任务使用户能够通过选择参考图像并提供其他文本来完善或修改检索结果来与系统进行交互。“不同于先前的工作主要集中于一种类型的文本反馈，我们认为文本的形式更为笼统，可以是类似于属性的描述，也可以是自然语言表达。”

补充项目检索

最后一篇论文研究了一种用于大规模时尚数据检索的技术，该系统可以预测服装项目与其他服装，衣橱和配饰项目的兼容性。它接收任意数量的服装图像以及称为矢量的数字表示(指示每个类别的类别)以及客户所追求项目的类别矢量作为输入，从而允许客户选择衬衫和夹克之类的东西并接收建议鞋子。

研究人员写道：“顾客经常购买与以前选择或购买的服装相称的服装。”“能够在适当的时候推荐兼容的商品将改善他们的购物体验……我们的系统专为大规模检索而设计，并且在兼容性预测，空白填充和服装设计方面均优于最新技术补充项目检索。”

图像通过一个模型，每个模型都产生一个矢量表示，每个表示通过一组掩模去掉，这些掩模不再强调某些表示特征而放大了其他特征。(在训练过程中学习了面具，结果表示对产品信息进行了编码，例如颜色和样式，这些信息仅与互补项的子集相关，例如鞋子，手袋和帽子。)另一种模型将每个图像和目标项目的类别，并输出用于优先化掩码的值，这些值称为子空间表示。

整个系统使用评估服装的评估标准进行训练。每个训练样本都包括一个服装以及与该服装相配的项目，以及一组不合适的项目，因此在训练后，系统会生成目录中每个项目的矢量表示。然后，找到特定服装的最佳搭配就成为查找相应向量的问题。

在对服装互补性使用两项标准度量的测试中，该系统以56.19%的空白填充准确度(曲线下的兼容区域为87%)优于其三大前任产品，同时实现了更高效的物品检索并达到了状态从多个在线购物网站(包括Amazon和Like.com)抓取的数据集的最新结果。

上一篇：Oculus和Phoria还有WWF推出带有免费高清3DVR电影的Ecosphere
下一篇：AT&T开始推出DSS 使一些5G手机可以共享4G频谱