规模图像检索系统的挑战与实践
邸志惠京东商城算法工程师2020.06.10大规模图像检索系统的挑战与实践CONTENTS大规模图像检索任务所面临的挑战0103Vearch在深度学习场景中的实践02Vearch原理解析1大规模图像检索任务所面临的挑战生物特征难以作假深度学习一次性获得高维度特征信息,便于对事物唯一刻画我们能用多少维度的特征描述一件商品?刻画的唯一么?传统数据库如何操作高维数据的搜索? 精确么?效率高么?最容易获取的唯一信息含量大的就是图片问题海量高维特征向量存储特征向量的相似性搜索构建一套易用的在线系统解决海量特征向量的存储、计算、相似向量检索问题目前尚无通用的基于向量的数据库解决方案2Vearch原理解析数十亿级向量的存储,计算查询能做什么支持实时查询支持内存硬盘双存储支持字段与标签过滤特点Restful接口Python SDK算法插件服务使用方式vearch简介整体架构23实时向量索引分布式字段过滤高性能无锁内存可动态扩展,延迟释放等技术实现添加数据同时支持索引横向弹性扩展基于raft协议实现数据多副本存储通过数值字段范围过滤与string字段标签过滤大幅提升性能技术核心1456持久化毫秒级多个索引方式支持内存、磁盘两种数据存储方式自研gamma引擎,提供高性能的向量检索IVFPQ针对亿级或者更多HNSW耗内存但查询精度高,适用千万级数据二进制索引用于处理unit8数据场景性能与效果评测IVFPQ检索模型相关对比试验性能与效果评测IVFPQ检索模型相关对比试验性能与效果评测大规模CPU服务器集群测试vgg100M, 500M3master,3router, 3partitionvgg1B, 3,6,48性能与效果评测modelrecall@1recall@10recall@100pq0.50790.89220.9930ivfpq0.49850.87920.9704imipq0.50770.86180.9248opq+pq0.52130.91050.9975hnsw0.94960.95500.9551Vearch0.95360.95820.9585modelrecall@1recall@10recall@100pq0.58420.89800.9888ivfpq0.59130.88960.9748imipq0.59250.88780.9570opq+pq0.61260.91600.9944hnsw0.88770.90690.9074Vearch0.92720.94640.9468Recalls of VGG 1MRecalls of VGG 10M3Vearch在深度学习场景中的实战背景准备数据格式在街上看见别人穿着自己心动的衣服,小配饰,想要拥有同款时:这种场景:只能获取唯一信息图片训练好一个图片特征提取模型,比如Resnet50需提前部署模型可直接调用待处理图片池图片文件:Image_url1Image_url2……Vearch在在电商拍照购场景的应用安装:Pip install vearch/编译1234创建引擎添加商品图片库创建表同款查询Vearch在电商拍照购场景的应用Python SDK: https://github.com/vearch/vearch/blob/master/docs/APIPythonSDK.mdStep1:创建引擎Step2:创建表Step3:插入数据Step4:查询Vearch在人脸识别中的应用Vearch在人脸识别中的应用Eg:ResNet + ArcFace + Focal + MS-Celeb-1MAccuracyTAR@FAR-BFPQ—searchLFW0.9990.998@1e-4——CALFW0.9600.930@1e-4——AgeDB-300.9820.971@1e-4——Vggface-1M0.970.952@1e-41.5%⇩名称分布式部署特征压缩精度速度字段过滤实时索引扩展性方案1BF-Search不支持不支持高慢不支持不支持差方案2Milvus-Search支持支持高快不支持不支持中方案3Elastic-Search不支持不支持中慢不支持不支持差方案4vearch支持支持高快支持支持好人脸识别搜索算法对比28Restful API: https://github.com/vearch/vearch/blob/master/docs/APILowLevel.md创建引擎添加人脸库人脸查询Vearch在人脸识别中的应用创建特征表Vearch的分布式使用master192.168.1.1192.168.1.2ps192.168.1.3192.168.1.4router192.168.1.5on 192.168.1.1 , 192.168.1.2 run master./vearch -conf conf.toml masteron 192.168.1.3 , 192.168.1.4 run ps./vearch -conf conf.toml pson 192.168.1.5 run router./vearch -conf conf.toml routerVearch在人脸识别中的应用Plugin: https://github.com/vearch/python-algorithm-plugin01020304实时快速数亿级数据毫秒级搜索实时查询方便维护多备份维护更简单安全支持弹性扩充灵活部署一键API调用端到端plugin场景广泛图片、文本、视频、音频凡是可转化成向量搜索的场景均可总结32Vearch地址:https://github.com/vearch/vearch 文档:https://vearch.readthedocs.io/zh_CN/latest/overview.html感谢观看
[京东]:规模图像检索系统的挑战与实践,点击即可下载。报告格式为PDF,大小2.29M,页数34页,欢迎下载。
