5分鐘,告訴你MySQL字符串怎么做索引
很多程序員都不喜歡字符串,我也是,字符串處理起來(lái)太麻煩了,而且字符串也比較占空間。舉個(gè)例子,一個(gè)字符要占1個(gè)字節(jié),但一般常用字符就那么幾個(gè)(例如我們常要求用戶名只能是大小寫字母與數(shù)字)。另外一個(gè)問題,就是數(shù)據(jù)庫(kù)查詢的時(shí)候,用字符串查詢太不方便了。今天我們來(lái)了解下,數(shù)據(jù)庫(kù)中的字符串查詢問題。
在PC互聯(lián)網(wǎng)時(shí)代,我們的很多賬戶都需要綁定電子郵箱,我們偶爾需要使用電子郵箱,也就是字符串來(lái)進(jìn)行數(shù)據(jù)查詢,為了保證查詢效率,我們通常要對(duì)字符串字段建立索引。
我們都知道,在InnoDB中,通常使用的是B+樹索引,如果索引的類型是字符串,那么我們可能會(huì)面臨這樣一個(gè)問題,索引的長(zhǎng)度會(huì)變得特別長(zhǎng),索引的長(zhǎng)度過(guò)長(zhǎng)會(huì)讓索引的索引占用更多的存儲(chǔ)空間,同時(shí)也會(huì)增加索引的維護(hù)成本。通常我們使用字符串索引,只會(huì)使用前面若干個(gè)字符,假如用戶的郵箱的開頭是26個(gè)字母,并且用戶名隨機(jī)均勻分布的,那么我們即使使用第一個(gè)字符做索引,也能減少25/26的掃描量,假如使用前2個(gè)字符,就可以減少675/676次掃描。所以,即便我們只用前面的若干個(gè)字符,也能大大地減少數(shù)據(jù)庫(kù)的掃描,提升查詢速度。
但是在現(xiàn)實(shí)生活中,用戶名往往不是隨機(jī)分布的,像a開頭的用戶往往占比較大。有些字符串的字段,往往開頭是相似的,例如居民的身份證號(hào),前面幾位數(shù)通常是省份跟城鎮(zhèn),教育局的學(xué)生信息,通常id是入學(xué)時(shí)間加月份,索引的選擇最好要滿足唯一性,我們最好能使用更有特色的字段進(jìn)行索引的建立。
例如身份證的問題,我們知道,身份證的前6位通常是地區(qū)信息,全國(guó)的省市區(qū)加起來(lái)也就是幾千個(gè),而身份證的后六位是生日的日信息跟4個(gè)隨機(jī)數(shù)字。那么,僅有30萬(wàn)分之一的概率后六位的數(shù)字是相同的。也就是說(shuō),如果把身份證號(hào)碼逆序存儲(chǔ)后,取前6位作為索引,可以減少近百分的數(shù)據(jù)掃描量,從而大大提升掃描的效率。
另外一種方法,就是建立哈希索引而不是B+樹索引,哈希索引的好處是在于查詢特定字符串的時(shí)候,幾乎都只要查詢一行數(shù)據(jù)。但是哈希索引的弊端是不支持范圍查詢,也不支持字符串匹配,假如的業(yè)務(wù)沒有這樣的場(chǎng)景,那可以使用哈希索引。
好了,今天我們簡(jiǎn)單地介紹了Mysql數(shù)據(jù)庫(kù)中,字符串索引的使用。不知道對(duì)你是否有所啟發(fā),歡迎大家關(guān)注我,共同學(xué)習(xí),共同進(jìn)步。