自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

京東11.11:商品搜索系統(tǒng)架構(gòu)設(shè)計解密

開發(fā) 架構(gòu)
目前京東正在開始展開這方面的開發(fā)。離線方面主要通過CNN算法,對圖片進行主題提取、提取相似特征、相同特征提取。引擎端主要是和搜索引擎類似的技術(shù)。圖像搜索未來將可以開辟一個新的電商購物入口。京東目前正在研發(fā)新的圖像檢索引擎。

劉尚堃,京東推薦搜索部技術(shù)總監(jiān),有豐富的團隊管理經(jīng)驗以及推薦、搜索、廣告產(chǎn)品研發(fā)經(jīng)驗。

一、 京東商品搜索簡介

京東商品搜索引擎是搜索推薦部自主研發(fā)的商品搜索引擎,主要功能是為海量京東用戶提供精準(zhǔn)、快速的購物體驗。雖然只有短短幾年的時間,我們的搜索引擎已經(jīng)經(jīng)過了多次618店慶和雙11的考驗,目前已經(jīng)能夠與人們?nèi)粘J褂玫娜绻雀琛俣鹊热乃阉饕嫦啾?,我們的產(chǎn)品與其有相通之處,比如涵蓋億級別商品的海量數(shù)據(jù)、支持短時超高并發(fā)查詢、又有自己的業(yè)務(wù)特點:

  1. 海量的數(shù)據(jù),億級別的商品量;

  2. 高并發(fā)查詢,日PV過億;

  3. 請求需要快速響應(yīng)。

搜索已經(jīng)成為我們?nèi)粘2豢苫蛉钡膽?yīng)用,很難想象沒有了Google、百度等搜索引擎,互聯(lián)網(wǎng)會變成什么樣。京東站內(nèi)商品搜索對京東,就如同搜索引擎對互聯(lián)網(wǎng)的關(guān)系。他們的共同之處:

  1. 海量的數(shù)據(jù),億級別的商品量;

  2. 高并發(fā)查詢,日PV過億;

  3. 請求需要快速響應(yīng)。

這些共同點使商品搜索使用了與大搜索類似的技術(shù)架構(gòu),將系統(tǒng)分為:

  1. 離線信息處理系統(tǒng);

  2. 索引系統(tǒng);

  3. 搜索服務(wù)系;

  4. 反饋和排序系統(tǒng)。

同時,商品搜索具有商業(yè)屬性,與大搜索有一些不同之處:

  1. 商品數(shù)據(jù)已經(jīng)結(jié)構(gòu)化,但散布在商品、庫存、價格、促銷、倉儲等多個系統(tǒng);

  2. 召回率要求高,保證每一個正常的商品均能夠被搜索到;

  3. 為保證用戶體驗,商品信息變更(比如價格、庫存的變化)實時性要求高,導(dǎo)致更新量大,每天的更新量為千萬級別;

  4. 較強的個性化需求,由于是一個相對垂直的搜索領(lǐng)域,需要滿足用戶的個性化搜索意圖,比如用戶搜索“小說”有的用戶希望找言情小說有的人需要找武俠小說有的人希望找到勵志小說。另外不同的人消費能力、性別、對配送時間的忍耐程度、對促銷的偏好程度以及對屬性比如“風(fēng)格”、“材質(zhì)”等偏好不同。以上這些需要有比較完善的用戶畫像系統(tǒng)來提供支持。

#p#

二、總體架構(gòu)圖

 

搜索服務(wù)集群:由很多個merger節(jié)點組成的集群。接收到查詢query后,將請求通過qp觸發(fā)有策略地下發(fā)到在線檢索服務(wù)集群和其他服務(wù)集群,并對各個服務(wù)的返回結(jié)果進行合并排序,然后調(diào)用detail server包裝結(jié)果,最終返回給用戶。

query processor server:搜索query意圖識別服務(wù)。

在線檢索服務(wù)集群:由很多個searcher節(jié)點組成,每個searcher列對應(yīng)一個小分片索引(包含全量數(shù)據(jù)和實時增量數(shù)據(jù))。

detail server:搜索結(jié)果展示服務(wù)。

索引生產(chǎn)端:包含全量和增量數(shù)據(jù)生產(chǎn),為在線檢索服務(wù)集群提供全量索引和實時索引數(shù)據(jù)。

三、 離線信息處理系統(tǒng)

由于商品數(shù)據(jù)分布在不同的異構(gòu)數(shù)據(jù)庫當(dāng)中有KV有關(guān)系型數(shù)據(jù)庫,需要將這些數(shù)據(jù)抽取到京東搜索數(shù)據(jù)平臺中,這分為全量抽取和實時抽取。

對于全量索引,由于商品數(shù)據(jù)散布于多個系統(tǒng)的庫表中,為了便于索引處理,對多個系統(tǒng)的數(shù)據(jù)在商品維度進行合并,生成商品寬表。然后在數(shù)據(jù)平臺上,使用MapReduce對商品數(shù)據(jù)進行清洗,之后進行離線業(yè)務(wù)邏輯處理,最終生成一份全量待索引數(shù)據(jù)。

對于實時索引,為了保證數(shù)據(jù)的實時性,實時調(diào)用各商品信息接口獲取實時數(shù)據(jù),將數(shù)據(jù)合并后采用與全量索引類似的方法處理數(shù)據(jù),生成增量待索引數(shù)據(jù)。

四、 索引系統(tǒng)

此系統(tǒng)是搜索技術(shù)的核心,在進入這個系統(tǒng)之前,搜索信息仍然是以商品維度進行存儲的。索引系統(tǒng)負(fù)責(zé)生成一種以關(guān)鍵字維度進行存儲的信息,一般稱之為倒排索引。

此系統(tǒng)對于全量和增量的處理是一致的,唯一的區(qū)別在于待處理數(shù)據(jù)量的差異。一般情況下,全量數(shù)據(jù)索引由于數(shù)據(jù)量龐大,采用hadoop進行;實時數(shù)據(jù)量小,采用單機進行索引生產(chǎn)。

五、 搜索服務(wù)系統(tǒng)

搜索服務(wù)系統(tǒng)是搜索真正接受用戶請求并響應(yīng)的系統(tǒng)。這個系統(tǒng)最初只有1列searcher組成在線檢索服務(wù)。由于用戶體驗的需要,首先增加 QueryProcessor服務(wù),負(fù)責(zé)查詢意圖分析,提升搜索的準(zhǔn)確性。

隨著訪問量的增長,接著增加緩存模塊,提升請求處理性能。接著隨著數(shù)據(jù)量(商品量)的增長,將包裝服務(wù)從檢索服務(wù)中獨立出去,成為detailServer服務(wù)。數(shù)據(jù)量的進一步增長,對數(shù)據(jù)進行類似數(shù)據(jù)庫分庫分表的分片操作。

這時候,在線檢索服務(wù)由多個分片的searcher列組成。自然而然,需要一個merger服務(wù),將多個分片的結(jié)果進行合并。至此,搜索基礎(chǔ)服務(wù)系統(tǒng)完備。

之后,無論是搜索量的增長或者數(shù)據(jù)量的增長,都可以通過擴容來滿足。對于618、1111之類的搜索量增長,可通過增加每個searcher列服務(wù)器的數(shù)量來滿足。而對于商品數(shù)據(jù)的不斷增加,只需要對數(shù)據(jù)做更多的分片,相應(yīng)地增加searcher列來滿足。

搜索服務(wù)系統(tǒng)內(nèi)部的處理流程如下:

 

在這個流程中,緩存模塊和拉取結(jié)果模塊非常穩(wěn)定。而排序模塊和在線業(yè)務(wù)邏輯處理模塊經(jīng)常需要改動。架構(gòu)需要穩(wěn)定,高效和通用。排序業(yè)務(wù)特點是實驗?zāi)P投?,開發(fā)迭代速度快,講求效果。

為了解決這一沖突,需要將排序業(yè)務(wù)與架構(gòu)分離,以動態(tài)鏈接庫的方式集成到搜索整體架構(gòu)中,具體包括文本策略和其他策略兩個維度的相關(guān)性,文本策略相關(guān)性集成在searcher當(dāng)中;其他策略相關(guān)性(包括反饋,個性化和業(yè)務(wù)調(diào)權(quán)等等)集成在merger當(dāng)中。實現(xiàn)架構(gòu)與排序業(yè)務(wù)各司其職,互不影響干擾。

 

排序與架構(gòu)分離

#p#

六、 反饋和排序系統(tǒng)

反饋系統(tǒng)主要包含用戶行為數(shù)據(jù)的實時收集、加工,并將數(shù)據(jù)存儲到數(shù)據(jù)集市當(dāng)中,并對這些數(shù)據(jù)進行特征提取,排序最主要考核的線上指標(biāo)是UV價值和轉(zhuǎn)化率,所以還會利用這些數(shù)據(jù)根據(jù)優(yōu)化目標(biāo)構(gòu)建起標(biāo)注數(shù)據(jù)。

然后基于機器學(xué)習(xí)的排序系統(tǒng)會針對特征構(gòu)建出模型。京東排序模型是每天更新的訓(xùn)練之前大概半年的數(shù)據(jù)。京東搜索在基于模型的排序基礎(chǔ)之上,上層還會有一層規(guī)則引擎,比如保障店鋪和品牌的多樣性,以及京東戰(zhàn)略扶持的品牌等都通過業(yè)務(wù)引擎來實現(xiàn)。

一般基于機器學(xué)習(xí)的排序模型需要較長期的投入但是模型更加健壯不容易被作弊手段找到漏洞,并且可以讓轉(zhuǎn)化率和UV價可持續(xù)的提升。

規(guī)則引擎主要是為了快速反應(yīng)市場的變化,起到立竿見影的效果。二者一個像中藥一個像西藥,中西結(jié)合療效好。

七、針對今年雙11的搜索系統(tǒng)性能優(yōu)化

1.故障秒級切換

今年搜索集群做到了三機房部署,任何一個機房出現(xiàn)斷網(wǎng)、斷電等問題可以秒級將流量切換到其它機房。并且搜索的部分應(yīng)用部署到了彈性云上,可以進行動態(tài)擴容。

2.大促期間索引數(shù)據(jù)實時更新

每年大促由于商品內(nèi)容等信息更改頻繁,涉及千萬級的索引寫操作,今年針對索引結(jié)構(gòu)進行了調(diào)整徹底消滅掉了索引更新存在的一切鎖機制,商品新增和修改操作變?yōu)殒準(zhǔn)礁?。使大促期間商品的索引更新達(dá)到了妙極。

3.大促期間的個性化搜索不降級

往年大促期間由于流量在平時5倍以上,高峰流量會在平時的7倍,為了保障系統(tǒng)穩(wěn)定,個性化搜索都進行了降級處理。今年針對搜索的緩存進行了針對性的優(yōu)化,實現(xiàn)了三級緩存結(jié)構(gòu)。從底向上分別是針對term的緩存,相關(guān)性計算緩存和翻頁緩存。最上層的翻頁緩存很多時候會被用戶的個性化請求擊穿,但是底層的相關(guān)性緩存和term緩存的結(jié)果可以起到作用,這樣不至于使CPU負(fù)載過高。

八、 京東在電商搜索方面產(chǎn)品和技術(shù)的創(chuàng)新

1. 個性化搜索

個性化之前的搜索對于同一個查詢,不同用戶看到的結(jié)果是完全相同的。這可能并不符合所有用戶的需求。在商品搜索中,這個問題尤為特出。因為商品搜索的用戶可能特別青睞某些品牌、價格、店鋪的商品,為了減少用戶的篩選成本,需要對搜索結(jié)果按照用戶進行個性化展示。

個性化的第一步是對用戶和商品分別建模,第二步是將模型服務(wù)化。

有了這兩步之后,在用戶進行查詢時,merger同時調(diào)用用戶模型服務(wù)和在線檢索服務(wù),用戶模型服務(wù)返回用戶維度特征,在線檢索服務(wù)返回商品信息,排序模塊運用這兩部分?jǐn)?shù)據(jù)對結(jié)果進行重排序,最后給用戶返回個性化結(jié)果。

2. 整合搜索

用戶在使用搜索時,其目的不僅僅是查找商品,還可能查詢服務(wù)、活動等信息。為了滿足這一類需求,首先在QueryProcessor中增加對應(yīng)意圖的識別。第二步是將服務(wù)、活動等一系列垂直搜索整合并服務(wù)化。一旦QP識別出這類查詢意圖,就條用整合服務(wù),將對應(yīng)的結(jié)果返回給用戶。

3、情感搜索

情感搜索在于盡可能滿足更多的搜索意圖,這需要在后臺構(gòu)建一個強大的知識庫體系。比如從海里評論中挖掘有意義的標(biāo)簽“成像效果好的相機”、“聚攏效果好的胸罩”、“適合送丈母娘”等,將這些信息一同構(gòu)建到索引中去比如搜索“適合送基友的禮物”結(jié)合搜索意圖分析相關(guān)的結(jié)果可以搜索出來。另外也可以從外部網(wǎng)站抓取有價值信息輔助構(gòu)建知識庫體系。

4、圖像檢索

很多時候用戶并不知道如何描述一個商品。通過搜索意圖分析、情感分析可以盡可能挖掘搜索意圖,很多時候用戶根本無法描述,比如在超市看到一個進口食品或者一件時尚的衣服,可以通過拍照檢索迅速在網(wǎng)上找到并比較價格,另外看到同事穿著一件比較喜歡的衣服也可以通過拍照檢索來找到。

目前京東正在開始展開這方面的開發(fā)。離線方面主要通過CNN算法,對圖片進行主題提取、提取相似特征、相同特征提取。引擎端主要是和搜索引擎類似的技術(shù)。圖像搜索未來將可以開辟一個新的電商購物入口。京東目前正在研發(fā)新的圖像檢索引擎。

 

 

責(zé)任編輯:王雪燕 來源: JDTech
相關(guān)推薦

2018-02-26 06:33:53

京東商品系統(tǒng)商品架構(gòu)

2016-11-30 13:23:39

京東商品搜索商品搜索引擎

2017-12-12 08:40:00

2017-07-06 00:27:17

虛擬訂單中心京東數(shù)據(jù)

2022-11-10 20:16:33

辦公

2017-01-15 18:51:57

京東手機商品詳情頁

2023-07-05 08:00:52

MetrAuto系統(tǒng)架構(gòu)

2020-11-11 13:41:57

京東智能客服

2014-05-19 10:08:36

IM系統(tǒng)架構(gòu)設(shè)計

2023-08-16 12:34:16

同步備份異步備份

2024-08-16 14:01:00

2024-10-17 08:26:53

ELKmongodb方案

2015-10-16 14:35:05

SaaSCRM架構(gòu)設(shè)計

2013-05-27 10:58:28

Tumblr架構(gòu)設(shè)計雅虎收購

2020-08-24 07:55:48

解密系統(tǒng)架構(gòu)

2023-07-09 15:20:00

緩存平衡性能

2010-08-10 10:10:28

系統(tǒng)架構(gòu)

2023-07-05 00:36:38

系統(tǒng)架構(gòu)設(shè)計

2018-05-17 10:10:17

架構(gòu)設(shè)計優(yōu)化

2023-07-06 00:41:03

SQLNoSQL數(shù)據(jù)庫
點贊
收藏

51CTO技術(shù)棧公眾號