自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

500W數(shù)據(jù)，20Wqps分詞檢索，架構如何設計？

作者：架構師之路 2022-11-03 10:47:34

開發(fā) 架構

本文通過一個典型的，短文本分詞搜索的問題，簡單聊聊自己的經(jīng)驗。

作者 | KG沈劍

?有水友提問：

沈哥，我們有個業(yè)務，類似于“標題分詞檢索”，并發(fā)量非常大，大概20W次每秒，數(shù)據(jù)量不是很大，大概500W級別，而且數(shù)據(jù)不會頻繁更新，平均每天更新一次，請問有什么好的方案么？

這是一個典型的，短文本分詞搜索的問題，簡單聊聊自己的經(jīng)驗。

常見的文本檢索方案有哪些？

(1) 數(shù)據(jù)庫LIKE法?

將標題數(shù)據(jù)存放在數(shù)據(jù)庫中，使用like來查詢，方案非常簡單，能支持簡單的模糊搜索，但不支持分詞。

畫外音：顯然不適用于本例。

(2) 數(shù)據(jù)庫全文檢索法?

將標題數(shù)據(jù)存放在數(shù)據(jù)庫中，建立全文索引來檢索，方案依然簡單，利用了數(shù)據(jù)庫的能力，不用額外開發(fā)，但性能較低。

畫外音：本例的并發(fā)肯定扛不住。?

(3) 開源方案索引外置法

搭建lucene，solr，ES等開源搜索工具，建立索引，支持分詞，支持數(shù)據(jù)量和吞吐量的水平擴展。

該方案能夠很好的滿足本例的需求。但是，殺雞焉用牛刀，本例有一些業(yè)務特性：文本短，更新不頻繁，如果利用好這兩個特點，能有更巧妙的方案。

畫外音：任何脫離業(yè)務的架構設計，都是耍流氓。?

針對“更新不頻繁”的特性，可以使用“分詞+DAT”方案。

畫外音：分詞就不多說了。

什么是DAT？?

DAT是double array trie的縮寫，是trie樹的一個變體優(yōu)化數(shù)據(jù)結構，它在保證trie樹檢索效率的前提下，能大大減少內存的使用，經(jīng)常用來解決檢索，信息過濾等問題。

畫外音：更具體的，可以Google一下“DAT”，DAT的缺點是，需要提前建立索引，索引不能實時更新。

為什么用trie樹的變種DAT，是否可以直接使用trie樹呢？?

trie樹的優(yōu)點是，索引可以實時更新；不足是，占用內存非常大。

本例索引無需實時更新，無法利用trie樹的優(yōu)點。但是，如果300W短文本建立好trie樹內存能裝下，則可以使用trie樹，否則只能使用DAT。

普及，什么是trie樹？?

trie樹，又稱單詞查找樹，經(jīng)常用于搜索引擎詞頻統(tǒng)計，短文本檢索，輸入法輸入提示等。

畫外音：什么數(shù)據(jù)結構適合什么業(yè)務場景，一定要爛熟于胸。

它的特點是，能利用字符串的公共前綴來減少查詢時間，最大限度地減少無謂的字符串比較，其查詢時間復雜度只與樹的高度有關，與查詢數(shù)據(jù)量級無關，因此查詢效率非常高。

畫外音：“時間復雜度與查詢數(shù)量級無關”這個太屌了。

例如：上面的trie樹就能夠表示｛and, as, at, cn, com｝這樣5個標題的集合，可以用來做這5個字符串的詞頻統(tǒng)計，或者檢索。

畫外音：檢索時，節(jié)點存儲命中該item的doc_list<doc_id>。

分詞之后，是不是需要多次掃描trie樹？

是的。

分詞之后，每個item都要掃描一次trie樹，得到的doc_list<doc_id>的交集，就是最終命中每個item的檢索結果。

針對“短文本”“500W數(shù)據(jù)”“不頻繁更新”這些特性，還能使用“分詞+內存hash”方案。

這個方案需要先對索引進行初始化：對所有短文本進行分詞，以詞的hash為key，doc_id的集合為value。

查詢的過程也很簡單：?對查詢字符串進行分詞，對每個分詞進行hash，直接查詢hash表格得到doc_list<doc_id>，再對每個分詞的檢索結果進行交集。

舉個栗子進行說明。

例如：

doc1 : 我愛北京
doc2 : 我愛到家
doc3 : 到家美好

先對短文本進行分詞：

doc1 : 我愛北京 -> 我，愛，北京
doc2 : 我愛到家 -> 我，愛，到家
doc3 : 到家美好 -> 到家，美好

對分詞進行hash，建立hash表：

hash(我) -> {doc1, doc2}
hash(愛) -> {doc1, doc2}
hash(北京) -> {doc1}
hash(到家) -> {doc2, doc3}
hash(美好) -> {doc3}

這樣，所有短文本初始化完畢，與trie樹類似，查詢時間復雜度與文本數(shù)據(jù)量也沒有關系。

畫外音：只與被分詞后有多少數(shù)據(jù)量，即hash桶個數(shù)有關。

查詢的過程是這樣的：

假如用戶輸入“我愛”，分詞后變?yōu)閧我，愛}，對各個分詞的hash進行內存檢索：

hash(我)->{doc1, doc2}
hash(愛)->{doc1, doc2}

然后進行合并，得到最后的查找結果是{doc1, doc2}。

這個方法的優(yōu)點是，純內存操作，能滿足很大的并發(fā)，時延也很低，占用內存也不大，實現(xiàn)非常簡單快速，而且冗余索引很容易水平擴展。

畫外音：做索引高可用也不難，建立兩份一樣的hash索引即可。

它的缺點也很明顯，索引全內存，沒有落地，還是需要在數(shù)據(jù)庫中存儲固化的短文本數(shù)據(jù)，如果內存數(shù)據(jù)全丟失，數(shù)據(jù)恢復起來會比較慢。

總結?

短文本，高并發(fā)，支持分詞，不用實時更新的檢索場景，可以使用：

ES，殺雞用牛刀；
分詞+DAT(trie)；
分詞+內存hash；

等幾種方式解決。

思路比結論重要，希望大家有收獲。?

責任編輯：趙寧寧來源：架構師之路

分詞檢索架構

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<sub id="atobc"></sub>

<sub id="atobc"><p id="atobc"></p></sub>

<sub id="atobc"></sub>