欢迎光临qtIS刷单最好的平台
您的位置:WY345刷单网/京东刷单/ 京东亿级商品搜索规则核心技术全面揭秘

京东亿级商品搜索规则核心技术全面揭秘

作者:编辑员日期:

返回目录:京东刷单

本次搜索书生做客京东搜索部门,听取搜索部分负责人王春明,一趟京东搜索技术的解密,以及京东搜索的架构体系,京东的搜索已经开始越来越完善化,商家必须要看懂搜索规则的数据处理情况。今天搜索书生就带来搜索部门负责人王春明的文字分享内容。

助教:鹿鸣  |  作者:搜索书生

今天是搜索书生陪伴您的第222天  

       目前京东整体搜索引擎是搜索部门推荐部自主研发的商品搜索检索引擎,主要功能室为了亿万级别的海量京东用户提供有效的精准,得到快速的购买体验。主要有电脑端/移动端/微信端/手Q端口的搜索页面、移动列表页、店铺搜索、店铺列表等。虽然这套系统只有短短三四年时间,系统已经能够支持很大的PV过亿的请求回执,并且经过了多次618周年庆和双十一的考验验证。

      与大众在日常使用的百度、谷歌等大的搜索引擎(或称为“全文搜索引擎”)相比,京东的商品搜索库引起与前者有很多相同之处,比如“覆盖掉海量数据”、“超高的快速查询”以及“超快速的请求回执响应时间”,同时又是自身显著地业务特点。

       搜索结构化的商品数据,需要从商品系统,库存系统,价格系统,促销系统,仓储系统等多个数据库进行抽取相关数据;

       通过快速和极其高效的召回率要求,保证每一个状态都可以保证被搜索捡取到商品,(除去系统问题的情况);

       商品库的信息室及时更新,目的是保证京东用户提高最佳的购物体验,——比如不能给用户展示出下柜的商品,或者商品的实时价格超出了用户搜索限定的范围。这就要求我们的搜索引擎要做到和各个系统的信息时刻保持同步,目前每天更新次数过亿;

       逻辑性质复杂的商品体系业务,需要存储量的商品属性信息室倒排索引的信息两倍之多;

       用户购物的个性化需求,要求系统实现用户标签与商品标签的匹配。

      正是由于既要兼顾大搜索引擎的通用需求,同时要契合京东的业务特点,我们将系统架构分为四个部分:1. 爬虫系统、2. 离线信息处理系统、3. 索引系统、4. 搜索服务系统。

      为了使各位学者能够很深入了解京东系统商品搜索引擎的架构体系,今天本文就给大家首先介绍了商品的搜索的总体架构体系,然后依次给大家介绍京东的爬虫系统、离线信息处理系统各个系统模块,并且对京东搜索技术的最新研究方向做一些展望的工作,希望对各位学者有很多大收获和帮助。

总体构架

京东商品搜索引擎的整体架构如下图所示:

从上到下共分为3层:

       1、京东搜索最上层是有搜索的前端UV层面,负责整体的京东搜索展示页面效果。

       2、中间层面是有京东搜索索引服务、SUG搜索、相关搜索、分词服务和兜底部服务组成。其中SUG搜索提供搜索输入框提示功能;相关搜索提供与query相关的其他搜索词服务;划词服务提供去除query部分词的功能;兜底服务用于索引服务异常情况下提供托底,保证用户基本的搜索可用。

       3、最下层是索引生产端,主要功能是对接商品、库存、价格、促销、仓储等众多外部系统,整合相关数据生产全量和增量数据的索引,为在线检索服务集群提供全量索引和实时索引数据。

爬虫系统   

       商品搜索引擎的最核心是建立的商品的检索页,而建立索引需要详细的商品信息数据。我们利用京东整体大数据平台的数据库进行抽取接口的中间件系统,实现了站内京东的商品爬虫系统。用来抽取数据库中间的商品信息和及时发现变化的商品体系信息。从京东搜索实践的效果上来看,爬虫系统表现是非常稳定和可靠的。

离线信息处理系统   

相关阅读

关键词不能为空
极力推荐