NAS時代未終結(jié),但對象存儲將成為企業(yè)存儲新標準
微博、微信、直播等互聯(lián)網(wǎng)應(yīng)用的風靡,帶來了海量的圖片、音頻和視頻文件,這些非結(jié)構(gòu)化數(shù)據(jù)的容量、文件的數(shù)量已經(jīng)超越了傳統(tǒng)NAS存儲的處理能力,因此各大互聯(lián)網(wǎng)廠商根據(jù)自身特點發(fā)展出了適合業(yè)務(wù)需求的分布式存儲架構(gòu),如:Google的GFS,亞馬遜的AWS S3,以及FaceBook的Cassandra等等。特別是亞馬遜2006年推出的AWS S3對象存儲,其定義的S3接口已經(jīng)逐漸成為非結(jié)構(gòu)化數(shù)據(jù)存儲的事實標準。
知名分析機構(gòu)IDC的報告預(yù)測,到2020年非結(jié)構(gòu)化存儲數(shù)據(jù)量將達到410EB,相比2015年增長4倍,而對象存儲占文件存儲總?cè)萘康?0%以上。報告顯示,2015-2020年對象存儲市場營收的年均復(fù)合增長率將達到8.7%。非結(jié)構(gòu)化數(shù)據(jù)量的暴增及對象存儲時代的到來,讓企業(yè)用戶越來越意識到對象存儲技術(shù)的重要性,基于對象存儲領(lǐng)域多年的實踐經(jīng)驗,今天有幸和大家分享我的一些積累和見解。
傳統(tǒng)NAS存儲制約業(yè)務(wù)的發(fā)展
“互聯(lián)網(wǎng)+”趨勢的推進以及各類智能終端的普及,非結(jié)構(gòu)化數(shù)據(jù)呈現(xiàn)出爆發(fā)性增長,如:金融業(yè)務(wù)辦理的開戶視頻、互聯(lián)網(wǎng)金融行業(yè)的申請資料、保險行業(yè)的理賠資料、快遞行業(yè)的電子快遞單、安防行業(yè)的視頻監(jiān)控錄像等。同時,為了滿足政策合規(guī)性,部分行業(yè)監(jiān)管要求長時間保存以供查詢?nèi)∽C。
如今,這些傳統(tǒng)企業(yè)的IT部門正在經(jīng)歷著互聯(lián)網(wǎng)公司曾經(jīng)遭遇的NAS無法解決的存儲難題,主要體現(xiàn)在如下方面:NAS存儲采用古老的文件系統(tǒng)技術(shù),單個文件系統(tǒng)容量受限,超過容量后對IT運維將帶來巨大挑戰(zhàn);NAS存儲的目錄文件系統(tǒng)采用B+樹進行文件索引,當文件數(shù)量過多時,會嚴重影響訪問性能;NAS設(shè)備過維保后,由于非結(jié)構(gòu)化數(shù)據(jù)規(guī)模較大,在更換時需要花費大量時間,且數(shù)據(jù)遷移存在風險等等。
那么,相對于傳統(tǒng)NAS文件存儲而言,對象存儲到底可以帶來哪些顛覆性的技術(shù)優(yōu)勢,接下來和大家做一些簡單分享。
對象存儲將成為企業(yè)存儲的新標準
分布式去中心架構(gòu),容量和性能擴展方便
對象存儲普遍采用的是基于通用x86服務(wù)器+分布式對象存儲軟件的技術(shù)架構(gòu),對象存儲軟件將多臺服務(wù)器通過以太網(wǎng)連接,構(gòu)建成一個統(tǒng)一的存儲資源池,可動態(tài)增加或刪除服務(wù)器實現(xiàn)容量的調(diào)整,數(shù)據(jù)能夠自動均衡,并且利用副本和糾刪機制(類似于RAID5/6)實現(xiàn)數(shù)據(jù)的高可靠和高可用性。
傳統(tǒng)NAS過維保后,需要將過保設(shè)備上的數(shù)據(jù)人工遷移到新購置的NAS上,文件數(shù)量較多的用戶需要花1到2個月時間,運維人力消耗非常大。而采用如下圖所示的分布式架構(gòu),可以動態(tài)移除舊設(shè)備,無需人工干預(yù),業(yè)務(wù)也不受影響。
創(chuàng)新的索引技術(shù),真正解決海量小文件問題
海量小文件的存儲是工業(yè)界和學術(shù)界公認的難題,解決問題較為關(guān)鍵的技術(shù)點就是優(yōu)化元數(shù)據(jù)管理,由于傳統(tǒng)NAS采用B+樹進行文件檢索,當文件數(shù)量比較少的時候,B+樹基本可以被緩存,性能還是不錯的。但隨著文件數(shù)量的增多,B+樹占用空間非常大無法被緩存時,就會涉及到機械盤操作導(dǎo)致性能明顯下降,如果層級較深,僅僅索引訪問就會產(chǎn)生多次磁盤隨機訪問操作,嚴重影響文件的訪問性能。
而對象存儲普遍采用了分布式哈希查找算法(DHT),技術(shù)原理如下圖所示:在建立集群時,對象存儲將整個存儲空間劃分成一個哈希環(huán),每個磁盤負責哈希環(huán)中部分哈希分區(qū)的存儲。當需要訪問一個文件時,系統(tǒng)通過“目錄/桶名+文件名”的哈希計算后,查詢DHT表即可定位到具體磁盤進行文件訪問。由于哈希環(huán)并不隨文件數(shù)量的增加而增多,所以查找性能不會受到文件數(shù)量的影響。
超大容量單目錄,滿足業(yè)務(wù)生命周期存儲需求
傳統(tǒng)NAS存儲采用文件系統(tǒng)技術(shù),單個文件系統(tǒng)容量普遍在幾十TB級。由于IT管理人員在業(yè)務(wù)上線前無法對規(guī)范容量和目錄需求做出精準評估,對于某些產(chǎn)生數(shù)據(jù)量較大的業(yè)務(wù)系統(tǒng)來說,就如下圖所示需要掛載多個文件系統(tǒng)目錄,這會帶來很多非增值的運維工作。
而對象存儲采用扁平化的文件名唯一定位方式,單個目錄或者存儲空間能達到數(shù)十PB甚至數(shù)百PB級,可以滿足業(yè)務(wù)系統(tǒng)整個生命周期的存儲容量需求,無需掛載目錄和調(diào)整業(yè)務(wù)系統(tǒng),讓IT人員更加關(guān)注業(yè)務(wù)價值本身。
更加適用于多數(shù)據(jù)中心容災(zāi)場景
高效的業(yè)務(wù)系統(tǒng)容災(zāi)方案是企業(yè)IT部門最為關(guān)注的焦點之一。對象存儲在接口方面的技術(shù)改良,使其在多數(shù)據(jù)中心容災(zāi)方面支持得更加完善,大部分對象存儲廠商都支持兩個及以上的多數(shù)據(jù)中心容災(zāi)。傳統(tǒng)NAS往往是主備模式的容災(zāi),而對象存儲普遍支持Active-Active模式的容災(zāi),可實現(xiàn)本地數(shù)據(jù)中心應(yīng)用的就近訪問。這對于采用負載均衡模式數(shù)據(jù)中心的企業(yè)來說,是非常有價值的,可以提升每個數(shù)據(jù)中心業(yè)務(wù)系統(tǒng)的訪問性能。
實現(xiàn)私有云和公有云間的數(shù)據(jù)流通
隨著企業(yè)互聯(lián)網(wǎng)業(yè)務(wù)的發(fā)展,越來越多的應(yīng)用運行在智能終端和公有云平臺上,而考慮到安全性和保密性,數(shù)據(jù)依然保存在企業(yè)內(nèi)部。傳統(tǒng)NAS的CIFS/NFS協(xié)議只能被企業(yè)內(nèi)網(wǎng)訪問,無法直接提供給外部網(wǎng)絡(luò)。對象存儲最早被應(yīng)用在互聯(lián)網(wǎng)和公有云場景,所以對象存儲的訪問協(xié)議(S3、SWIFT)都是基于HTTP標準協(xié)議,可支持內(nèi)網(wǎng)和外網(wǎng)應(yīng)用系統(tǒng)對存儲的自由訪問。
在安全性方面,數(shù)據(jù)采用AES進行加密傳輸,支持HTTPS保證傳輸鏈路安全。S3協(xié)議還定義了完整的多租戶訪問、文件粒度的授權(quán)訪問等多種安全技術(shù),保證了數(shù)據(jù)開放給外網(wǎng)訪問的安全性。
關(guān)于應(yīng)用對象存儲技術(shù)的一些建議
匹配對象存儲典型的應(yīng)用場景
傳統(tǒng)文件存儲主要有兩種使用場景:一種是在線編輯場景,如媒資行業(yè)的現(xiàn)編系統(tǒng)存儲,另一種是非在線編輯場景,主要是滿足歸檔和查詢需求,不需要對文件內(nèi)容進行修改。在實際應(yīng)用中,非在線編輯場景占數(shù)據(jù)總?cè)萘康?0%以上。對象存儲接口能夠完全滿足非在線編輯場景的需求,因此在此類場景中用戶可以完全替換掉傳統(tǒng)NAS。為了讓用戶更好地匹配對象存儲的關(guān)鍵應(yīng)用場景,我們做了如下總結(jié):
- 文件數(shù)量特別多,訪問性能受到影響的場景。例如:銀行的影像資料、保險的電子保單、快遞的電子快遞單等等,對象存儲可以保證在這種場景下的訪問性能。
- 數(shù)據(jù)存儲量特別大,需要長期保存的場景。例如:金融行業(yè)的雙錄、醫(yī)療行業(yè)的影像資料、提供客服中心服務(wù)的語音資料等等,利用對象存儲的彈性擴展能力以及超大容量目錄,保證業(yè)務(wù)系統(tǒng)整個生命周期不需要做任何變更。
- 互聯(lián)網(wǎng)業(yè)務(wù)的使用場景,例如:互聯(lián)網(wǎng)金融相關(guān)業(yè)務(wù),對象存儲可以實現(xiàn)互聯(lián)網(wǎng)應(yīng)用對企業(yè)內(nèi)部文件的安全訪問,讓數(shù)據(jù)在企業(yè)內(nèi)部和互聯(lián)網(wǎng)間高效流動。
- 多數(shù)據(jù)中心共享場景,例如:跨地域的文件共享、總部與分支機構(gòu)文件的共享與歸集等應(yīng)用場景。
重視廠商的技術(shù)服務(wù)能力
雖然AWS S3協(xié)議已成為對象存儲的事實標準,其數(shù)據(jù)訪問接口相對傳統(tǒng)文件系統(tǒng)訪問接口更加簡單。但由于S3接口相比NAS提供更加豐富的功能,包括:權(quán)限管理、租戶管理、標簽、外鏈、配額、多版本、生命周期、多數(shù)據(jù)中心策略等上百個API接口,如何充分利用好這些接口,幫助業(yè)務(wù)系統(tǒng)提高數(shù)據(jù)安全性、優(yōu)化業(yè)務(wù)性能、優(yōu)化存儲管理、優(yōu)化多數(shù)據(jù)中心訪問方式和存儲策略等方面,可能需要有對象存儲部署經(jīng)驗的廠商來協(xié)助。
因此,我們建議在引入對象存儲技術(shù)的同時,用戶應(yīng)該更多地關(guān)注廠商對于應(yīng)用開發(fā)技術(shù)的服務(wù)能力,實現(xiàn)對象存儲部署價值的***化。