自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

10ms以內(nèi)檢索數(shù)億，為什么微信推薦這么快？

作者：佚名 2020-07-27 09:55:10

開發(fā) 架構(gòu)

SimSvr 目前已廣泛應用于微信視頻號、看一看、搜一搜、微信安全、表情搜索等業(yè)務，接下來會闡述 SimSvr 的設(shè)計以及如何解決來自于業(yè)務的難題。

▍1. 背景

在一些推薦系統(tǒng)、圖片檢索、文章去重等場景中，對基于特征數(shù)據(jù)進行 k 近鄰檢索有著廣泛的需求：

支持億級索引的檢索，同時要求非常高的檢索性能；
支持索引的批量實時更新；
支持多模型、多版本以靈活開展 ABTest 實驗；
支持過濾器、過期刪除以排除不符合特定條件的數(shù)據(jù)。

在經(jīng)過調(diào)研后，發(fā)現(xiàn)已有的解決方案存在以下問題：

在學術(shù)界中，已經(jīng)存在有成熟并開源的 ANN 搜索庫，然而這些搜索庫僅僅是作為單機引擎存在，而不能作為高性能、可依賴、可拓展的分布式組件為推薦系統(tǒng)提供服務；
在業(yè)界中，大多數(shù)的組件都是基于 ANN 搜索庫做一層簡單的封裝，在可拓展、高可用上的表現(xiàn)達不到在線系統(tǒng)的要求；而對于少數(shù)在實現(xiàn)上已經(jīng)較為成熟的分布式檢索系統(tǒng)，在功能上卻難以做到緊跟業(yè)務發(fā)展；
而在更新機制上，很多組件都是要么只支持離線更新、要么只支持在線接口更新，無法滿足在微信側(cè)小至秒級千數(shù)量、大至小時級億數(shù)量的索引更新需求，因此需要可以兼顧近實時更新及離線大批量更新的分布式系統(tǒng)。

基于上述的這些要求以及業(yè)內(nèi)組件的限制，我們借助 WFS 和 Chubby 設(shè)計并實現(xiàn)了 SimSvr，它是一個高性能、功能豐富的特征檢索組件，具有以下特點：

分布式可伸縮的架構(gòu)，支持億級以上的索引量，以及索引的并發(fā)加速查詢，實現(xiàn)了 10ms 以內(nèi)檢索數(shù)億的索引；
高性能召回引擎，使用了召回性能極佳的 hnswlib 作為首選召回引擎，大部分請求可在 2ms 內(nèi)完成檢索；
集群化管理，集成了完善的數(shù)據(jù)調(diào)度及動態(tài)路由功能；
多樣的更新機制，支持任務式更新及自動更新，同時也支持全量更新與增量更新，跨越秒級千數(shù)量到小時級億數(shù)量的索引更新；
讀寫分離的機制，在離線利用龐大的計算資源加速構(gòu)建索引的同時，不影響在線服務的高性能讀；
豐富的功能特性，支持輕量 embedding kv 庫、單表多索引、多版本索引、過濾器、過期刪除等特性。

SimSvr 目前已廣泛應用于微信視頻號、看一看、搜一搜、微信安全、表情搜索等業(yè)務，接下來會闡述 SimSvr 的設(shè)計以及如何解決來自于業(yè)務的難題。

▍2. 檢索引擎

2.1 引擎的選擇

ANN 問題在學術(shù)界已被長期研究，并且已有成熟的開源 ANN 搜索庫存在，如 nmslib、hnswlib、faiss 等。在 SimSvr 中，性能及集群的存儲容量是最主要考量的兩個指標，因此選擇了以下兩個檢索引擎：

在 ann-benchmarks 中檢索性能最好的 hnswlib，能夠滿足在線服務對召回率及檢索耗時的高要求（大于 90% 召回率的情況下，能在 1ms 內(nèi)完成召回）；
faiss 的 IVFx_HNSWy + PQz 算法，支持將向量壓縮 10 ~ 30 倍，能夠滿足資源有限情況下的高維大數(shù)據(jù)量的索引要求（億級索引數(shù)據(jù)，容納在內(nèi)存 64G 的機器上）。

ANN檢索引擎效果對比

2.2 巧妙利用資源，提升 50% 的數(shù)據(jù)容納量

hnswlib 是單機檢索引擎，在資源使用方面僅考慮了單模型的情況；而 SimSvr 是提供在線服務的組件，一般容納了多個模型；
SimSvr 在大部分場景下，擁有讀寫分離的特點；

基于以上特點，我們在引入 hnswlib 之后，進行了資源整合，使得 SimSvr 單機情況下可以容納更多的模型索引：

極限情況下（以 worker 線程數(shù) 80、部署 10 張 2kw 索引量的表為例）：

現(xiàn)網(wǎng)運營中（以某現(xiàn)網(wǎng)模塊(11臺實例機器，worker 線程 240）為例）：

2.3 點積距離召回率從 62.6% 到 97.8% 的蛻變心路歷程

HNSW 算法在余弦距離表現(xiàn)優(yōu)秀，但在點乘距離的數(shù)據(jù)集上存在效果差的情況；
點乘距離非度量空間（metric space)，不滿足三角不等式，距離比較沒有傳遞性；
- 維基百科中關(guān)于度量空間的定義:

hnswlib 中說明點積屬于非度量空間：

而在論文 Non-metric Similarity Graphs for

Maximum Inner Product Search 中，提到了將點乘距離轉(zhuǎn)換為余弦距離計算的方法，我們將這種方法簡稱為 ip2cos；

在 ip2cos 距離轉(zhuǎn)換的理論基礎(chǔ)上，我們使用看一看視頻實時 DSSM 模型進行了實際召回情況的效果對比（64 維、ip 距離、100 萬索引數(shù)據(jù)量，進行 1 萬次查詢?nèi)∑骄臅r），并見證了 ip2cos 的神奇效果：

2.4 如何使用 faiss 省下 2h 的訓練時間并提升 30% 的召回率

在 faiss 中增加了 batch kmeans 聚類方法，在保證較好聚類效果的同時大幅加快訓練速度。IVF 系類方法訓練耗時主要體現(xiàn)在需要從數(shù)據(jù)中學習 nlist 個聚類中心，對于千萬級數(shù)據(jù) nlist 的大小在 20 萬以上，在 cpu 上使用傳統(tǒng) kmeans 方法訓練會非常耗時，下面展示在 128 維、IP 距離、1000 萬條數(shù)據(jù)的情況下 batch kmeans 對訓練速度的加速效果：

從結(jié)果中可以看到，在相同迭代輪次下，不使用 batch kmeans 的方法訓練耗時更長，且沒有很好收斂，導致召回率不高。

▍3. 總體設(shè)計

3.1 數(shù)據(jù)結(jié)構(gòu) - 為達成一個小目標，需要做出怎樣的改變

為了滿足單模塊多模型的需求，SimSvr 使用了表的概念進行多模型的管理；另外，為支持億級以上 HNSW 索引的表，并且希望能夠并發(fā)加速構(gòu)建索引，我們根據(jù)單表的數(shù)據(jù)情況，將一張表分成了多個 sharding，使得每個 sharding 承擔表數(shù)據(jù)的其中一部分：

tablei 的索引，由 shard0、shard1、…、shardn 構(gòu)成一份完整的索引數(shù)據(jù)；而 sect 的數(shù)量則決定了表的副本數(shù)（可用于伸縮讀能力、提供容災等）。

在 SimSvr 中，我們將一個 shardi_sectj 稱之為一個 container，這是 SimSvr 中最小的數(shù)據(jù)調(diào)度和加載單位。

3.2 系統(tǒng)架構(gòu) - 如何支撐億級索引、5毫秒級的檢索

SimSvr 架構(gòu)

SimSvr 與 FeatureKV 一樣，涉及的外部依賴也是三個：
- Chubby：用來保存元數(shù)據(jù)、路由信息、worker 資源信息等；SimSvr 中的數(shù)據(jù)協(xié)同、分布式任務執(zhí)行均是依賴于 Chubby；
- USER_FS：業(yè)務側(cè)存放原始數(shù)據(jù)的分布式文件系統(tǒng)，可以是 WFS/HDFS，該文件系統(tǒng)的路徑及信息保存在表/任務的元信息中；
- SimSvr_FS：Simsvr 使用的分布式文件系統(tǒng)，用于存放生成的索引文件或者原始的增量數(shù)據(jù)文件。
worker
- 負責對外提供檢索服務，通過對 Chubby 的輪詢檢查索引的更新，進而將索引加載至本機以提供服務；
- 每臺 worker 負責的數(shù)據(jù)，由 master 進行調(diào)度，worker 根據(jù) master 保存在 Chubby 上的分配信息進行數(shù)據(jù)的加載/卸載；
- worker 的數(shù)據(jù)是根據(jù) master 分配得來的，除此之外沒有其他狀態(tài)的差別，因此 worker 是易于擴縮容的。
master
- 數(shù)據(jù)調(diào)度：通過表的元信息及 worker 狀態(tài)，將未分配的數(shù)據(jù)或者失效 worker 上的數(shù)據(jù)調(diào)度給其他有效的 worker；
- 生成路由表：根據(jù) worker 的數(shù)據(jù)加載情況及狀態(tài)，生成集群的路由表；
- 感知數(shù)據(jù)更新：檢查表的自動更新目錄，若最大數(shù)字目錄發(fā)生了增長，則建一個任務以供 trainer 進行索引的構(gòu)建；
- master 是一個無狀態(tài)的服務，通過 Chubby 提供的分布式鎖保證數(shù)據(jù)調(diào)度以及路由生成的唯一執(zhí)行。
trainer
- 負責構(gòu)建表的索引及資源回收；
- trainer 單次可構(gòu)建一張表中一個 sharding 的索引，因此如果表有多個 sharding 時，可通過增加 trainer 的個數(shù)實現(xiàn)構(gòu)建索引的并發(fā)加速；
- trainer 是無狀態(tài)的服務，通常部署在微信 Yard 系統(tǒng)上，充分了利用微信閑置機器上的資源。
數(shù)據(jù)自動更新
- 在建表時，對其指定了一個 fs 的目錄，該目錄下，是一系列數(shù)字遞增的目錄；
- 當業(yè)務側(cè)需要更新索引時，將最新的數(shù)據(jù) dump 到更大的數(shù)字目錄中；
- master 感知最大數(shù)字目錄的更新，從而更新了元信息；
- trainer 感知元信息的更新并觸發(fā)建索引；
- worker 加載索引完成索引的更新。
數(shù)據(jù)任務式更新
- 由業(yè)務側(cè)主動通過接口的調(diào)用，創(chuàng)建一個索引任務；
- 在索引任務中，指定了數(shù)據(jù)的配置信息（如 fs 信息及路徑等）；
- trainer 按照表的任務序列，執(zhí)行任務并構(gòu)建索引；
- worker 加載索引完成索引的更新。

3.3 數(shù)據(jù)調(diào)度 - 雞蛋怎么放在多個籃子中

SimSvr 在每張表創(chuàng)建時就指定了 sharding 數(shù) n 及 sect 數(shù) m，因此這張表擁有了 n * m 個 Conatiner 以供 master 調(diào)度；
master 會根據(jù) worker 的健康情況及資源使用情況進行數(shù)據(jù)的調(diào)度及路由表的生成；
路由表帶有遞增的版本號，可根據(jù)版本號感知路由的變化。

worker 定期輪詢 Chubby 獲取數(shù)據(jù)的調(diào)度情況及最新的路由表信息；
client 首次請求時，將隨機請求一臺 worker 獲取最新的路由表信息并將其緩存在本地；
client 在本地有路由表的情況下，將根據(jù)表的數(shù)據(jù)分布情況，帶上版本號并發(fā)地向目標 worker 發(fā)起請求，最終合并所有 sharding 的結(jié)果，將其返回給業(yè)務端。

3.4 系統(tǒng)拓展 - 籃子裝滿了該怎么辦

SimSvr 將表拆分成了更小粒度的數(shù)據(jù)調(diào)度單位，且不要求每臺機器上的數(shù)據(jù)一樣，因此可以用拓展機器的方式，將集群的存儲容量擴大；
對于單表而言，當讀能力達到瓶頸時，可以單獨擴展此表的讀副本數(shù)；

▍4. 近實時增量更新的挑戰(zhàn) - 十秒內(nèi)完成索引的更新

數(shù)據(jù)一致性與持久化
- 對于大多數(shù)的分布式存儲組件來說，都是使用 raft 或者 paxos 等一致性協(xié)議保證數(shù)據(jù)一致性并持久化至本機上；
- 對于 SimSvr 來說，每張表會被分為多個 sharding，且 sharding 數(shù)不保證為奇數(shù)；
- 在 worker 中加入一致性組件及額外的存儲引擎，會使得整體的結(jié)構(gòu)變得復雜；
- 最終在考量后，結(jié)合業(yè)務的批量增量更新的特點，選擇了先將數(shù)據(jù)落地 fs，再由 worker 拉取數(shù)據(jù)加載的方案；在這種方案下，1000 以內(nèi)數(shù)量的 key 插入，能夠在 10s 內(nèi)完成，達到了業(yè)務的要求。

增量持久化

增量更新的性能保障
- 由于在線建索引是非常消耗 cpu 資源的過程，因此為了不影響現(xiàn)網(wǎng)的讀服務，worker 僅提供少量的 cpu 資源用于增量數(shù)據(jù)的更新；
- 對于小批量的增量數(shù)據(jù)，worker 可以直接加載存放在 fs 上的數(shù)據(jù)并直接進行索引的在線插入；
- 對于大批量的增量數(shù)據(jù)，為了避免影響讀服務及大增量更新慢的問題，SimSvr 將大批量數(shù)據(jù)在 trainer 進行合并且并發(fā)重建索引，最后再由 worker 直接加載建好的索引。

增量更新

▍5. 豐富的功能特性

5.1 支持額外的特征存儲庫

在推薦系統(tǒng)中，同一個模型，產(chǎn)生的數(shù)據(jù)除了用于檢索的索引庫，常常還有視頻特征/用戶畫像的特征數(shù)據(jù)；
這類數(shù)據(jù)，僅僅只需要查詢的功能，并且與同個模型同個版本產(chǎn)出的索引庫相互作用，產(chǎn)生正確的召回效果；
基于這種原子性更新的特性，SimSvr 支持了額外的特征存儲庫，用于存儲與模型一同更新且僅用于查詢的特征數(shù)據(jù)，幫助業(yè)務省去了數(shù)據(jù)同步與對齊的煩惱。

5.2 支持原子性更新的單表多索引

在推薦系統(tǒng)中，ABTest 是非常常見的，多個模型的實驗往往也是需要同時進行的；
另外，在某些場景下，同一個模型會產(chǎn)生不同的索引數(shù)據(jù)，在線上使用時要求同模型的索引要同時生效；
對于以上兩種情況，如果使用多表支持多模型，在索引更新上存在生效時間的差異從而無法支持；
SimSvr 對于這種情況，支持了同一張表多份索引的原子性更新，保證了索引能夠同時生效。

5.3 多版本索引

在 ABTest 場景下，除了有多模型間的實驗，還有相同模型不同版本數(shù)據(jù)的實驗；
在相同模型中，版本迭代/不同版本進行實驗的場景是廣泛存在的；
如果使用多表支持這樣的多版本索引，不管在業(yè)務方的使用上，還是在 SimSvr 的管理上，都顯得不是那么地優(yōu)雅；
對此，SimSvr 支持了同一張表的多版本管理，并且多版本支持在現(xiàn)網(wǎng)下同時進行服務，業(yè)務可以按需請求目標版本，進行靈活的實驗。

5.4 支持布隆過濾器、閾值過濾器等

在視頻號場景中，業(yè)務使用 SimSvr 對視頻進行索引；
在使用某個用戶的特征進行召回時，常常召回了許多用戶已看過的視頻，影響用戶體驗；
通過增加召回結(jié)果并在結(jié)果中進行過濾，對于重度用戶，一樣存在上述問題，并且還會導致不必要的性能開銷；
SimSvr 改造 hnswlib，嵌入了過濾器的邏輯，使得其支持在檢索過程中實時對符合特定條件的 key 進行過濾，保證了召回結(jié)果的有效性。

5.5 支持過期刪除

對于一些推薦系統(tǒng)來說，對于數(shù)據(jù)的時效性要求是非常高的，在數(shù)據(jù)過了其最佳召回時間段之后，就不應該出現(xiàn)在召回結(jié)果中，以免出現(xiàn)不合時宜的尷尬；
SimSvr 支持導入帶過期時間的數(shù)據(jù)，在現(xiàn)網(wǎng)召回過程中，實時淘汰過期的 key 以達到準確的召回要求。

▍6. 現(xiàn)網(wǎng)運營情況

SimSvr 目前已部署 160+ 個模型索引，使用邏輯核 8000+，總索引量超過 20 億特征向量，廣泛應用于視頻號、看一看、搜一搜等推薦業(yè)務中。
搜一搜基于 SimSvr 建立小程序優(yōu)質(zhì)文章的向量索引，提升小程序文章搜索的優(yōu)質(zhì)結(jié)果召回率。新方案相比舊方案，優(yōu)質(zhì)結(jié)果召回率提升 7%；
搜一搜使用 SimSvr 檢索視頻指紋，進行相似視頻去重；單表索引量高達 1.7 億 * 128 維，檢索平均耗時小于 8ms，日檢索量 12.5 億。

▍7. 總結(jié)

隨著推薦系統(tǒng)的強勢發(fā)展，特征檢索的使用場景越來越廣泛。而作為基礎(chǔ)組件，除了要擁有支持億級索引的基本素養(yǎng)外，在功能特性上也需要不斷迎合業(yè)務的發(fā)展。因此我們開發(fā)了 SimSvr，搭配特征存儲 FeatureKV，在視頻號、看一看、搜一搜等推薦系統(tǒng)中發(fā)揮了重要的作用。

責任編輯：龐桂玉來源： ITPUB

微信架構(gòu)索引

51CTO技術(shù)棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<legend id="v9jri"><track id="v9jri"></track></legend>