图像搜索与识别背后的故事(2)

栏目导航

期刊信息

刊名：中国体视学与图像分析
主办：中国体视学学会
主管：中国科学技术协会
ISSN：1007-1482
CN：11-3739/R
语言：中文
周期：季刊
影响因子：0.272189
被引频次：9789
数据库收录：
统计源期刊(2014);期刊分类：临床医学

您现在所在位置：主页 > 综合新闻 >

来源：中国体视学与图像分析 【在线投稿】栏目：综合新闻时间：2021-03-24

【作者】网站采编

【关键词】

【摘要】示例五：示例五是一个海淘的示例，算法能够比较准确的对带有标签的保健品、药品等商品进行识别。 6. 以图搜图流程接下来讲一下拍立淘以图搜图的流

示例五：示例五是一个海淘的示例，算法能够比较准确的对带有标签的保健品、药品等商品进行识别。

6. 以图搜图流程

接下来讲一下拍立淘以图搜图的流程，其实对一个搜索而言，都会有一个在线和离线的搜索过程。离线就是把候选的图像建立一个数据库，然后进行一个入库和删除的操作，当一个离线的图像要进库时，首先要做一个离线的检测，因为有可能图像中既有衣服又有眼镜，如果检测到是衣服，那么接着就需要对衣服进行一个特征提取，特征提取会将图像数据转换成一系列的数字，接着将两个图像之间进行一个计算，差值越小，代表两张图越相似。

挑战一：实拍图匹配

怎么进行实拍图匹配呢？商品的图像搜索会有两种图片，其中离线的是比较高质量的图像，因为离线的图像都是模特在摄影棚里用高端的相机拍的，可以看到商家的图像都是高质量精美的图片。但是用户所拍的上传的图像会出现很多低质量的图片，所以说识别图像匹配是一个需要解决的关键性问题。

Deep ranking：

为了解决图像匹配的问题，采用了深度学习中的Deep ranking方法。若想要将一个识别搜索或者其它AI系统做到极致，首先需要大量的数据，而这些数据可以通过用户的交互行为来获得。

例如用户上传了一个图像，经过系统检测后系统会反馈给用户一些图像，用户点击的图像会比没点击的图像相似度要高，我们就可以拿这个数据作为特征训练的监督的信息。接着把用户上传的图像和用户点击的一个图像还有用户没有点击的一个图像一起传送到共享CNN网络中，然后经过多层的特征提取，就可以得到数据特征的数据，这就是所谓的训练的基本框架。但这个框架有一个致命的问题，因为我们一个样本涉及到三幅图，导致计算量是很大的，针对于此，研发了一种大规模数据分布式训练。

大数据分布式训练：

在大规模分布式训练中，数据的运行模式中需要N个机器，每个机器中都含有数据，每个机器中独立的数据经过CNN网络的特征提取后，会把所有的特征汇集到一台总机器上，这样做的好处就是能够更多的构造副样本，并且它们之间可以共享，这样就可以更高效的运用数据，进而提高运算速度。

虚拟ID：

训练过程中看不到全部图像，只能看到局部图像的问题，因此导致训练效率比较低的问题。针对这个问题提出了虚拟ID训练，虚拟ID训练会给图像标注一个虚拟label，然后以label作为分类监督的信息，接着把CNN网络中的响应拿出来进行比较。用户在点击商品的两个图时，我们会认为这两个图像在某种程度上是有一定的相似度。因此，让手机用户点击所有的图像时形成一个编码，然后把图像的label做一个聚类。这个训练不仅速度比上文中的大数据分布式训练速度提升十倍以上，而且训练效果能达到90%以上。

挑战二：海量数据