自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<samp id="dcccd"><b id="dcccd"></b></samp>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

海量數(shù)據(jù)相似度計(jì)算之simhash和海明距離

作者：嚴(yán)瀾 2013-08-29 14:28:58

大數(shù)據(jù)

過采集系統(tǒng) 我們采集了大量文本數(shù)據(jù)，但是文本中有很多重復(fù)數(shù)據(jù)影響我們對于結(jié)果的分析。分析前我們需要對這些數(shù)據(jù)去除重復(fù)，如何選擇和設(shè)計(jì)文本的去重算法？常見的有余弦夾角算法、歐式距離、Jaccard相似度、最長公共子串、編輯距離等。

通過采集系統(tǒng) 我們采集了大量文本數(shù)據(jù)，但是文本中有很多重復(fù)數(shù)據(jù)影響我們對于結(jié)果的分析。分析前我們需要對這些數(shù)據(jù)去除重復(fù)，如何選擇和設(shè)計(jì)文本的去重算法？常見的有余弦夾角算法、歐式距離、Jaccard相似度、最長公共子串、編輯距離等。這些算法對于待比較的文本數(shù)據(jù)不多時(shí)還比較好用，如果我們的爬蟲每天采集的數(shù)據(jù)以千萬計(jì)算，我們?nèi)绾螌τ谶@些海量千萬級的數(shù)據(jù)進(jìn)行高效的合并去重。最簡單的做法是拿著待比較的文本和數(shù)據(jù)庫中所有的文本比較一遍如果是重復(fù)的數(shù)據(jù)就標(biāo)示為重復(fù)。看起來很簡單，我們來做個(gè)測試，就拿最簡單的兩個(gè)數(shù)據(jù)使用Apache提供的 Levenshtein for 循環(huán)100w次計(jì)算這兩個(gè)數(shù)據(jù)的相似度。代碼結(jié)果如下：

String s1 = "你媽媽喊你回家吃飯哦，回家羅回家羅" ;  
String s2 = "你媽媽叫你回家吃飯啦，回家羅回家羅" ;  
 
long t1 = System.currentTimeMillis();  
 
for (int i = 0; i < 1000000; i++) {  
       int dis = StringUtils .getLevenshteinDistance(s1, s2);  
}  
 
long t2 = System.currentTimeMillis();  
 
System. out .println(" 耗費(fèi)時(shí)間： " + (t2 - t1) + "  ms ");

耗費(fèi)時(shí)間： 4266 ms

大跌眼鏡，居然計(jì)算耗費(fèi)4秒。假設(shè)我們一天需要比較100w次，光是比較100w次的數(shù)據(jù)是否重復(fù)就需要4s，就算4s一個(gè)文檔，單線程一分鐘才處理15個(gè)文檔，一個(gè)小時(shí)才900個(gè)，一天也才21600個(gè)文檔，這個(gè)數(shù)字和一天100w相差甚遠(yuǎn)，需要多少機(jī)器和資源才能解決。

為此我們需要一種應(yīng)對于海量數(shù)據(jù)場景的去重方案，經(jīng)過研究發(fā)現(xiàn)有種叫 local sensitive hash 局部敏感哈希的東西，據(jù)說這玩意可以把文檔降維到hash數(shù)字，數(shù)字兩兩計(jì)算運(yùn)算量要小很多。查找很多文檔后看到google對于網(wǎng)頁去重使用的是simhash，他們每天需要處理的文檔在億級別，大大超過了我們現(xiàn)在文檔的水平。既然老大哥也有類似的應(yīng)用，我們也趕緊嘗試下。simhash是由 Charikar 在2002年提出來的，參考《Similarity estimation techniques from rounding algorithms》。介紹下這個(gè)算法主要原理，為了便于理解盡量不使用數(shù)學(xué)公式，分為這幾步：

1、分詞，把需要判斷文本分詞形成這個(gè)文章的特征單詞。最后形成去掉噪音詞的單詞序列并為每個(gè)詞加上權(quán)重，我們假設(shè)權(quán)重分為5個(gè)級別（1~5）。比如：“ 美國“51區(qū)”雇員稱內(nèi)部有9架飛碟，曾看見灰色外星人 ” ==> 分詞后為 “ 美國（4） 51區(qū)（5）雇員（3）稱（1）內(nèi)部（2）有（1） 9架（3）飛碟（5）曾（1）看見（3）灰色（4）外星人（5）”，括號里是代表單詞在整個(gè)句子里重要程度，數(shù)字越大越重要。
2、hash，通過hash算法把每個(gè)詞變成hash值，比如“美國”通過hash算法計(jì)算為 100101,“51區(qū)”通過hash算法計(jì)算為 101011。這樣我們的字符串就變成了一串串?dāng)?shù)字，還記得文章開頭說過的嗎，要把文章變?yōu)閿?shù)字計(jì)算才能提高相似度計(jì)算性能，現(xiàn)在是降維過程進(jìn)行時(shí)。
3、加權(quán)，通過 2步驟的hash生成結(jié)果，需要按照單詞的權(quán)重形成加權(quán)數(shù)字串，比如“美國”的hash值為“100101”，通過加權(quán)計(jì)算為“4 -4 -4 4 -4 4”；“51區(qū)”的hash值為“101011”，通過加權(quán)計(jì)算為 “ 5 -5 5 -5 5 5”。
4、合并，把上面各個(gè)單詞算出來的序列值累加，變成只有一個(gè)序列串。比如 “美國”的 “4 -4 -4 4 -4 4”，“51區(qū)”的 “ 5 -5 5 -5 5 5”，把每一位進(jìn)行累加， “4+5 -4+-5 -4+5 4+-5 -4+5 4+5” ==》 “9 -9 1 -1 1 9”。這里作為示例只算了兩個(gè)單詞的，真實(shí)計(jì)算需要把所有單詞的序列串累加。
5、降維，把4步算出來的 “9 -9 1 -1 1 9” 變成 0 1 串，形成我們最終的simhash簽名。如果每一位大于0 記為 1，小于0 記為 0。最后算出結(jié)果為：“1 0 1 0 1 1”。

整個(gè)過程圖為：

大家可能會有疑問，經(jīng)過這么多步驟搞這么麻煩，不就是為了得到個(gè) 0 1 字符串嗎？我直接把這個(gè)文本作為字符串輸入，用hash函數(shù)生成 0 1 值更簡單。其實(shí)不是這樣的，傳統(tǒng)hash函數(shù)解決的是生成唯一值，比如 md5、hashmap等。md5是用于生成唯一簽名串，只要稍微多加一個(gè)字符md5的兩個(gè)數(shù)字看起來相差甚遠(yuǎn)；hashmap也是用于鍵值對查找，便于快速插入和查找的數(shù)據(jù)結(jié)構(gòu)。不過我們主要解決的是文本相似度計(jì)算，要比較的是兩個(gè)文章是否相識，當(dāng)然我們降維生成了hashcode也是用于這個(gè)目的?？吹竭@里估計(jì)大家就明白了，我們使用的simhash就算把文章中的字符串變成 01 串也還是可以用于計(jì)算相似度的，而傳統(tǒng)的hashcode卻不行。我們可以來做個(gè)測試，兩個(gè)相差只有一個(gè)字符的文本串，“你媽媽喊你回家吃飯哦，回家羅回家羅” 和 “你媽媽叫你回家吃飯啦，回家羅回家羅”。

通過simhash計(jì)算結(jié)果為：

1000010010101101111111100000101011010001001111100001001011001011

1000010010101101011111100000101011010001001111100001101010001011

通過 hashcode計(jì)算為：

1111111111111111111111111111111110001000001100110100111011011110

1010010001111111110010110011101

大家可以看得出來，相似的文本只有部分 01 串變化了，而普通的hashcode卻不能做到，這個(gè)就是局部敏感哈希的魅力。目前Broder提出的shingling算法和Charikar的 simhash算法應(yīng)該算是業(yè)界公認(rèn)比較好的算法。在simhash的發(fā)明人Charikar的論文中并沒有給出具體的simhash算法和證明，“量子圖靈”得出的證明simhash是由隨機(jī)超平面hash算法演變而來的。

現(xiàn)在通過這樣的轉(zhuǎn)換，我們把庫里的文本都轉(zhuǎn)換為simhash 代碼，并轉(zhuǎn)換為long類型存儲，空間大大減少?，F(xiàn)在我們雖然解決了空間，但是如何計(jì)算兩個(gè)simhash的相似度呢？難道是比較兩個(gè)simhash的 01有多少個(gè)不同嗎？對的，其實(shí)也就是這樣，我們通過海明距離（Hamming distance）就可以計(jì)算出兩個(gè)simhash到底相似不相似。兩個(gè)simhash對應(yīng)二進(jìn)制（01串）取值不同的數(shù)量稱為這兩個(gè)simhash的海明距離。舉例如下： 10101 和 00110 從第一位開始依次有第一位、第四、第五位不同，則海明距離為3。對于二進(jìn)制字符串的a和b，海明距離為等于在a XOR b運(yùn)算結(jié)果中1的個(gè)數(shù)（普遍算法）。

為了高效比較，我們預(yù)先加載了庫里存在文本并轉(zhuǎn)換為simhash code 存儲在內(nèi)存空間。來一條文本先轉(zhuǎn)換為 simhash code，然后和內(nèi)存里的simhash code 進(jìn)行比較，測試100w次計(jì)算在100ms。速度大大提升。

未完待續(xù)：

1、目前速度提升了但是數(shù)據(jù)是不斷增量的，如果未來數(shù)據(jù)發(fā)展到一個(gè)小時(shí)100w，按現(xiàn)在一次100ms，一個(gè)線程處理一秒鐘 10次，一分鐘 60 * 10 次，一個(gè)小時(shí) 60*10 *60 次 = 36000次，一天 60*10*60*24 = 864000次。我們目標(biāo)是一天100w次，通過增加兩個(gè)線程就可以完成。但是如果要一個(gè)小時(shí)100w次呢？則需要增加30個(gè)線程和相應(yīng)的硬件資源保證速度能夠達(dá)到，這樣成本也上去了。能否有更好的辦法，提高我們比較的效率？

2、通過大量測試，simhash用于比較大文本，比如500字以上效果都還蠻好，距離小于3的基本都是相似，誤判率也比較低。但是如果我們處理的是微博信息，最多也就140個(gè)字，使用simhash的效果并不那么理想?？慈缦聢D，在距離為3時(shí)是一個(gè)比較折中的點(diǎn)，在距離為10時(shí)效果已經(jīng)很差了，不過我們測試短文本很多看起來相似的距離確實(shí)為10。如果使用距離為3，短文本大量重復(fù)信息不會被過濾，如果使用距離為10，長文本的錯誤率也非常高，如何解決？

參考：

Detecting near-duplicates for web crawling.

Similarity estimation techniques from rounding algorithms.

http://en.wikipedia.org/wiki/Locality_sensitive_hashing

http://en.wikipedia.org/wiki/Hamming_distance

simHash 簡介以及 java 實(shí)現(xiàn)

simhash原理推導(dǎo)

原文鏈接：http://www.lanceyan.com/tech/arch/simhash_hamming_distance_similarity.html

責(zé)任編輯：林師授來源：觀瀾而索源

海量數(shù)據(jù)simhash

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<i id="uybuh"></i>

<thead id="uybuh"></thead>

<blockquote id="uybuh"></blockquote>