自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

500W數(shù)據(jù),20Wqps分詞檢索,架構如何設計?

精選
開發(fā) 架構
本文通過一個典型的,短文本分詞搜索的問題,簡單聊聊自己的經(jīng)驗。

作者 | KG沈劍

?有水友提問:

沈哥,我們有個業(yè)務,類似于“標題分詞檢索”,并發(fā)量非常大,大概20W次每秒,數(shù)據(jù)量不是很大,大概500W級別,而且數(shù)據(jù)不會頻繁更新,平均每天更新一次,請問有什么好的方案么?

這是一個典型的,短文本分詞搜索的問題,簡單聊聊自己的經(jīng)驗。

常見的文本檢索方案有哪些?

(1) 數(shù)據(jù)庫LIKE法?

將標題數(shù)據(jù)存放在數(shù)據(jù)庫中,使用like來查詢,方案非常簡單,能支持簡單的模糊搜索,但不支持分詞。

畫外音:顯然不適用于本例。

(2) 數(shù)據(jù)庫全文檢索法?

將標題數(shù)據(jù)存放在數(shù)據(jù)庫中,建立全文索引來檢索,方案依然簡單,利用了數(shù)據(jù)庫的能力,不用額外開發(fā),但性能較低。

畫外音:本例的并發(fā)肯定扛不住。?

(3) 開源方案索引外置法

搭建lucene,solr,ES等開源搜索工具,建立索引,支持分詞,支持數(shù)據(jù)量和吞吐量的水平擴展。

該方案能夠很好的滿足本例的需求。但是,殺雞焉用牛刀,本例有一些業(yè)務特性:文本短,更新不頻繁,如果利用好這兩個特點,能有更巧妙的方案。

畫外音:任何脫離業(yè)務的架構設計,都是耍流氓。?

針對“更新不頻繁”的特性,可以使用“分詞+DAT”方案。

畫外音:分詞就不多說了。

什么是DAT??

DAT是double array trie的縮寫,是trie樹的一個變體優(yōu)化數(shù)據(jù)結構,它在保證trie樹檢索效率的前提下,能大大減少內存的使用,經(jīng)常用來解決檢索,信息過濾等問題。

畫外音:更具體的,可以Google一下“DAT”,DAT的缺點是,需要提前建立索引,索引不能實時更新。

為什么用trie樹的變種DAT,是否可以直接使用trie樹呢??

trie樹的優(yōu)點是,索引可以實時更新;不足是,占用內存非常大。

本例索引無需實時更新,無法利用trie樹的優(yōu)點。但是,如果300W短文本建立好trie樹內存能裝下,則可以使用trie樹,否則只能使用DAT。

普及,什么是trie樹??

trie樹,又稱單詞查找樹,經(jīng)常用于搜索引擎詞頻統(tǒng)計,短文本檢索,輸入法輸入提示等。

畫外音:什么數(shù)據(jù)結構適合什么業(yè)務場景,一定要爛熟于胸。

它的特點是,能利用字符串的公共前綴來減少查詢時間,最大限度地減少無謂的字符串比較,其查詢時間復雜度只與樹的高度有關,與查詢數(shù)據(jù)量級無關,因此查詢效率非常高。

畫外音:“時間復雜度與查詢數(shù)量級無關”這個太屌了。

圖片

例如:上面的trie樹就能夠表示{and, as, at, cn, com}這樣5個標題的集合,可以用來做這5個字符串的詞頻統(tǒng)計,或者檢索。

畫外音:檢索時,節(jié)點存儲命中該item的doc_list<doc_id>。

分詞之后,是不是需要多次掃描trie樹? 

是的。

分詞之后,每個item都要掃描一次trie樹,得到的doc_list<doc_id>的交集,就是最終命中每個item的檢索結果。

針對“短文本”“500W數(shù)據(jù)”“不頻繁更新”這些特性,還能使用“分詞+內存hash”方案。

這個方案需要先對索引進行初始化:對所有短文本進行分詞,以詞的hash為key,doc_id的集合為value。

查詢的過程也很簡單:?對查詢字符串進行分詞,對每個分詞進行hash,直接查詢hash表格得到doc_list<doc_id>,再對每個分詞的檢索結果進行交集。

舉個栗子進行說明。

例如:

  • doc1 : 我愛北京
  • doc2 : 我愛到家
  • doc3 : 到家美好

先對短文本進行分詞:

  • doc1 : 我愛北京 -> 我,愛,北京
  • doc2 : 我愛到家 -> 我,愛,到家
  • doc3 : 到家美好 -> 到家,美好

對分詞進行hash,建立hash表:

  • hash(我) -> {doc1, doc2}
  • hash(愛) -> {doc1, doc2}
  • hash(北京) -> {doc1}
  • hash(到家) -> {doc2, doc3}
  • hash(美好) -> {doc3}

這樣,所有短文本初始化完畢,與trie樹類似,查詢時間復雜度與文本數(shù)據(jù)量也沒有關系。

畫外音:只與被分詞后有多少數(shù)據(jù)量,即hash桶個數(shù)有關。

查詢的過程是這樣的:

假如用戶輸入“我愛”,分詞后變?yōu)閧我,愛},對各個分詞的hash進行內存檢索:

  • hash(我)->{doc1, doc2}
  • hash(愛)->{doc1, doc2}

然后進行合并,得到最后的查找結果是{doc1, doc2}。

這個方法的優(yōu)點是,純內存操作,能滿足很大的并發(fā),時延也很低,占用內存也不大,實現(xiàn)非常簡單快速,而且冗余索引很容易水平擴展。

畫外音:做索引高可用也不難,建立兩份一樣的hash索引即可。

它的缺點也很明顯,索引全內存,沒有落地,還是需要在數(shù)據(jù)庫中存儲固化的短文本數(shù)據(jù),如果內存數(shù)據(jù)全丟失,數(shù)據(jù)恢復起來會比較慢。

總結?

短文本,高并發(fā),支持分詞,不用實時更新的檢索場景,可以使用:

  • ES,殺雞用牛刀;
  • 分詞+DAT(trie);
  • 分詞+內存hash;

等幾種方式解決。

思路比結論重要,希望大家有收獲。?

責任編輯:趙寧寧 來源: 架構師之路
相關推薦

2024-10-05 00:00:20

Element開源項目

2023-06-30 07:19:25

電源供電顯卡

2011-04-28 09:36:22

海量數(shù)據(jù)存儲

2011-11-01 11:01:47

優(yōu)派投影機

2011-08-09 20:16:43

投影機評測

2015-07-20 16:55:58

2021-05-11 07:39:58

跳槽談薪工作

2011-06-02 14:51:00

SQL Server

2020-07-29 09:54:35

帖子中心數(shù)據(jù)架構

2023-06-29 07:22:11

功率12V電腦

2011-11-25 13:45:42

優(yōu)派投影機

2022-11-09 10:15:26

2023-08-08 14:49:12

2011-10-18 22:07:46

優(yōu)派投影儀

2019-10-25 15:50:06

MySQL數(shù)據(jù)庫命令

2021-07-09 05:52:36

架構開發(fā)緩存

2021-12-30 09:50:35

數(shù)據(jù)泄露漏洞信息安全

2013-03-20 13:35:12

數(shù)據(jù)庫數(shù)據(jù)庫設計

2012-03-07 10:25:33

NEC投影機

2011-07-22 12:39:50

平板電腦評測
點贊
收藏

51CTO技術棧公眾號