自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

使用倒排索引極速提高字符串搜索效率

開(kāi)發(fā) 后端
看完這篇文章以后,你已經(jīng)學(xué)會(huì)了倒排索引(Inverted-index)。這是Google搜索的核心算法之一。

[[375752]]

 在Python中,如果要判斷一個(gè)字符串是否在另一個(gè)字符串里面,我們可以使用in關(guān)鍵字,例如:

  1. >>> a = '你說(shuō)我是買蘋(píng)果電腦,還是買windows電腦呢?' 
  2. >>> if '蘋(píng)果' in a: 
  3. ...  print('蘋(píng)果這個(gè)詞在a字符串里面'
  4. ... 
  5. 蘋(píng)果這個(gè)詞在a字符串里面 

如果有多個(gè)句子和多個(gè)關(guān)鍵字,那么可以使用for循環(huán)來(lái)實(shí)現(xiàn):

  1. sentences = ['你說(shuō)我是買蘋(píng)果電腦,還是買windows電腦呢?',  
  2.              '人生苦短我用Python',  
  3.              '你TM一天到晚只知道得瑟'
  4.              '不不不,我不是說(shuō)你,我是說(shuō)在座的各位都是垃圾。' 
  5.              '我cnm你個(gè)大sb' 
  6.             ] 
  7. keywords = ['垃圾''cnm''sb''TM'
  8. for sentence in sentences: 
  9.     for keyword in keywords: 
  10.         if keyword in sentence: 
  11.             print(f'句子: 【{sentence}】包含臟話:【{keyword}】'

運(yùn)行效果如下圖所示:

現(xiàn)在如果有100000000個(gè)句子,有1000個(gè)關(guān)鍵字,那么你需要對(duì)比1000億次才能全部查詢完成。這個(gè)時(shí)間代價(jià)太大了,如果Python一秒鐘能運(yùn)行500萬(wàn)次查詢(實(shí)際上沒(méi)有這么快),那么1000億次查詢需要20000秒,接近6小時(shí)。而且,由于in關(guān)鍵字的時(shí)間復(fù)雜度為O(n),如果有大量長(zhǎng)句子,查詢時(shí)間會(huì)更長(zhǎng)。

例如,我們要從下面的句子里面尋找cnm。

  1. sentences = ['你說(shuō)我是買蘋(píng)果電腦,還是買windows電腦呢?',  
  2.              '人生苦短我用Python',  
  3.              '你TM一天到晚只知道得瑟'
  4.              '不不不,我不是說(shuō)你,我是說(shuō)在座的各位都是垃圾。'
  5.              '我cnm你個(gè)大sb'
  6.              '各位同學(xué),Good Morning!'
  7.              '網(wǎng)絡(luò)這個(gè)單詞,它的英文為Network'
  8.              '我不想聽(tīng)到有人說(shuō)cnm!' 
  9.             ] 

如果使用常規(guī)方法,那么我們的做法是:

  1. cnm在你說(shuō)我是買蘋(píng)果電腦,還是買windows電腦呢?中嗎?不在!
  2. cnm在人生苦短我用Python嗎?不在!
  3. ……
  4. ……
  5. cnm在我cnm你個(gè)大sb嗎?在!
  6. cnm在各位同學(xué),Good Morning!嗎?不在!
  7. CMN在網(wǎng)絡(luò)這個(gè)單詞,它的英文為Network嗎?不在!
  8. cnm在我不想聽(tīng)到有人說(shuō)cnm!嗎?在!

于是就知道了,cnm在sentences列表下標(biāo)為4和7的這兩個(gè)句子中。

下面,我們換一個(gè)看起來(lái)更笨的辦法:

要找到cnm在哪幾句里面,可以變成:尋找C、N、M這三個(gè)字母在哪幾句里面。然后,再找到同時(shí)有這三個(gè)字母的句子:

  1. C在4, 7句
  2. N在4,6,7句
  3. M在2, 4,5,7句

所以,{4, 7} 與 {4, 6, 7} 與 {4, 5, 7}做交集,得到{4, 7}說(shuō)明cnm這個(gè)詞很有可能是在第4句和第7句。

為什么說(shuō)很可能呢?因?yàn)榧偃缭偬砑右痪湓挘航裉煳覀儗W(xué)習(xí)三個(gè)單詞:Cat, Network, Morning。這一句也會(huì)被認(rèn)為包含cnm這個(gè)詞,但實(shí)際上它只是同時(shí)包含了C、N、M三個(gè)字母而已。

接下來(lái),有人會(huì)問(wèn)了:原來(lái)直接查詢cnm的時(shí)候,只需要查詢8次就可以了?,F(xiàn)在你分別查詢C N M要查詢24次。你是修復(fù)了查詢時(shí)間太短的bug嗎?

回答這個(gè)問(wèn)題之前,我們?cè)賮?lái)看另一個(gè)問(wèn)題。

Python里面,當(dāng)我要判斷字母C是不是在句子我不想聽(tīng)到有人說(shuō)cnm!里面時(shí),Python是如何工作的?

實(shí)際上,它的工作原理可以寫(xiě)成:

  1. sentence = '我不想聽(tīng)到有人說(shuō)cnm!' 
  2. for char in sentence: 
  3.     if char == 'C'
  4.         print('C在這個(gè)字符串中'
  5.         break 

如果要判斷C、N、M是不是都在這個(gè)字符串我不想聽(tīng)到有人說(shuō)cnm!中,同一個(gè)字符串會(huì)被遍歷3次。有沒(méi)有辦法減少這種看起來(lái)多余的遍歷操作呢?

如果我們把我不想聽(tīng)到有人說(shuō)cnm!這個(gè)句子轉(zhuǎn)成字典會(huì)怎么樣:

  1. sentence = '我不想聽(tīng)到有人說(shuō)cnm!' 
  2. sentence_dict = {char: 1 for char in sentence} 
  3. for letter in 'cnm'
  4.     if letter in sentence_dict: 
  5.         print(f'字母{letter}在句子中!'

這樣一來(lái),只需要在生成字典的時(shí)候遍歷句子一次,減少了2次冗余遍歷。并且,判斷一個(gè)元素是否在字典里面,時(shí)間復(fù)雜度為O(1),速度非??臁?/p>

我不想聽(tīng)到有人說(shuō)cnm!生成的字典為{'我': 1, '不': 1, '想': 1, '聽(tīng)': 1, '到': 1, '有': 1, '人': 1, '說(shuō)': 1, 'C': 1, 'N': 1, 'M': 1, '!': 1}。那么如果要把列表里面的所有句子都這樣處理,又怎么存放呢?此時(shí),字典的Key就是每一個(gè)字符,而Value可以是每一句話在原來(lái)列表中的索引:

  1. sentences = ['你說(shuō)我是買蘋(píng)果電腦,還是買windows電腦呢?',  
  2.              '人生苦短我用Python',  
  3.              '你TM一天到晚只知道得瑟'
  4.              '不不不,我不是說(shuō)你,我是說(shuō)在座的各位都是垃圾。'
  5.              '我cnm你個(gè)大sb'
  6.              '各位同學(xué),Good Morning!'
  7.              '網(wǎng)絡(luò)這個(gè)單詞,它的英文為Network'
  8.              '我不想聽(tīng)到有人說(shuō)cnm!'
  9. index_dict = {} 
  10. for index, line in enumerate(sentences): 
  11.     print(index, line) 
  12.     for char in line: 
  13.         if not char.strip(): 
  14.             continue 
  15.         if char in index_dict: 
  16.             index_dict[char].add(index
  17.         else
  18.             index_dict[char] = {index

生成的字典為:

  1. {'B': {4}, 
  2.  'C': {4, 7}, 
  3.  'G': {5}, 
  4.  'M': {2, 4, 5, 7}, 
  5.  'N': {4, 6, 7}, 
  6.  'P': {1}, 
  7.  'S': {4}, 
  8.  'T': {2}, 
  9.  'd': {0, 5}, 
  10.  'e': {6}, 
  11.  'g': {5}, 
  12.  'h': {1}, 
  13.  'i': {0, 5}, 
  14.  'k': {6}, 
  15.  'n': {0, 1, 5}, 
  16.  'o': {0, 1, 5, 6}, 
  17.  'r': {5, 6}, 
  18.  's': {0}, 
  19.  't': {1, 6}, 
  20.  'w': {0, 6}, 
  21.  'y': {1}, 
  22.  '。': {3}, 
  23.  '一': {2}, 
  24.  '不': {3, 7}, 
  25.  '個(gè)': {4, 6}, 
  26.  '為': {6}, 
  27.  '買': {0}, 
  28.  '人': {1, 7}, 
  29.  '位': {3, 5}, 
  30.  '你': {0, 2, 3, 4}, 
  31.  '到': {2, 7}, 
  32.  '單': {6}, 
  33.  '只': {2}, 
  34.  '各': {3, 5}, 
  35.  '同': {5}, 
  36.  '聽(tīng)': {7}, 
  37.  '呢': {0}, 
  38.  '在': {3}, 
  39.  '圾': {3}, 
  40.  '垃': {3}, 
  41.  '大': {4}, 
  42.  '天': {2}, 
  43.  '學(xué)': {5}, 
  44.  '它': {6}, 
  45.  '座': {3}, 
  46.  '得': {2}, 
  47.  '想': {7}, 
  48.  '我': {0, 1, 3, 4, 7}, 
  49.  '文': {6}, 
  50.  '是': {0, 3}, 
  51.  '晚': {2}, 
  52.  '有': {7}, 
  53.  '果': {0}, 
  54.  '瑟': {2}, 
  55.  '生': {1}, 
  56.  '用': {1}, 
  57.  '電': {0}, 
  58.  '的': {3, 6}, 
  59.  '知': {2}, 
  60.  '短': {1}, 
  61.  '絡(luò)': {6}, 
  62.  '網(wǎng)': {6}, 
  63.  '腦': {0}, 
  64.  '苦': {1}, 
  65.  '英': {6}, 
  66.  '蘋(píng)': {0}, 
  67.  '詞': {6}, 
  68.  '說(shuō)': {0, 3, 7}, 
  69.  '還': {0}, 
  70.  '這': {6}, 
  71.  '道': {2}, 
  72.  '都': {3}, 
  73.  '!': {5, 7}, 
  74.  ',': {0, 3, 5, 6}, 
  75.  '?': {0}} 

生成的字典這么長(zhǎng),看起來(lái)非??膳?。但是別慌,畢竟不是你人肉尋找。對(duì)Python來(lái)說(shuō),字典里面無(wú)論有多少個(gè)Key,它的查詢時(shí)間都是一樣的。

現(xiàn)在,我們要尋找C、N、M,于是代碼可以寫(xiě)為:

  1. index_list = [] 
  2. for letter in 'cnm'
  3.     index_list.append(index_dict.get(letter, {})) 
  4.  
  5. common_index = set.intersection(*index_list)  # 對(duì)包含各個(gè)字母的索引做交集,得到同時(shí)包含3個(gè)字母的句子 
  6. print(f'這幾個(gè)句子里面同時(shí)含有`C`、`N`、`M`:{common_index}'
  7. for index in common_index: 
  8.     print(sentences[index]) 

運(yùn)行結(jié)果如下:

所以,對(duì)于一組需要被查詢的關(guān)鍵字,也可以這樣搜索:

  1. keywords = ['垃圾''cnm''sb''TM'
  2. for word in keywords: 
  3.     index_list = [] 
  4.     for letter in word: 
  5.         index_list.append(index_dict.get(letter, {})) 
  6.  
  7.     common_index = set.intersection(*index_list) 
  8.     print(f'>>這幾個(gè)句子里面同時(shí)含有:{word}'
  9.     for index in common_index: 
  10.         print(sentences[index]) 

運(yùn)行效果如下圖所示:

看完這篇文章以后,你已經(jīng)學(xué)會(huì)了倒排索引(Inverted-index)。這是Google搜索的核心算法之一。

可以看出,對(duì)于少量數(shù)據(jù)的搜索,倒排索引并不會(huì)比常規(guī)方法節(jié)約多少時(shí)間。但是當(dāng)你有100000000條句子,1000個(gè)關(guān)鍵詞的時(shí)候,用倒排索引實(shí)現(xiàn)搜索,所需要的時(shí)間只有常規(guī)方法的1/10甚至更少。

最后回到前面遇到的一個(gè)問(wèn)題,當(dāng)句子里面同時(shí)含有字母C、N、M,雖然這三個(gè)字母并不是組合在一起的,也會(huì)被搜索出來(lái)。這就涉及到搜索引擎的另一個(gè)核心技術(shù)——分詞了。對(duì)于英文而言,使用空格來(lái)切分單詞就好了。但是對(duì)于中文來(lái)說(shuō),不同的漢字組合在一起構(gòu)成的詞語(yǔ),字?jǐn)?shù)是不一樣的。甚至有些專有名詞,可能七八個(gè)字,但是也要作為整體來(lái)搜索。

分詞的具體做法,又是另外一個(gè)故事了。

本文轉(zhuǎn)載自微信公眾號(hào)「未聞Code」,可以通過(guò)以下二維碼關(guān)注。轉(zhuǎn)載本文請(qǐng)聯(lián)系未聞Code公眾號(hào)。

 

責(zé)任編輯:武曉燕 來(lái)源: 未聞Code
相關(guān)推薦

2010-06-10 13:54:10

MySQL全文搜索

2010-05-13 17:23:14

MySQL搜索索引

2017-08-07 08:15:31

搜索引擎倒排

2020-03-20 10:14:49

搜索引擎倒排索引

2010-10-25 10:55:11

Oracle函數(shù)索引

2009-08-07 14:22:56

C#字符串搜索

2022-11-21 12:06:24

fgrep命令Linux

2011-07-11 15:36:44

JavaScript

2011-07-27 17:22:10

mysql極限測(cè)試索引

2014-02-28 10:26:16

Linux文本搜索ack

2016-10-12 10:18:53

Java字符串源碼分析

2010-07-08 17:28:02

2023-01-09 09:52:06

Bash字符串

2010-05-26 08:47:00

索引SQL Server

2011-05-16 13:24:00

MySQL全文搜索效率

2015-11-02 17:11:38

RelProxyJava開(kāi)發(fā)效率

2021-12-15 19:37:49

索引字符串字段

2010-03-16 10:58:35

Python字符串

2010-03-16 16:22:36

Python字符串

2012-02-06 15:22:16

Java
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)