「存儲(chǔ)極客」學(xué)習(xí)超融合,傳統(tǒng)存儲(chǔ)知識(shí)不可少
vSAN 的設(shè)計(jì)就是為了自家虛擬化,所以把自身嵌入到vSphere Hypervisor;Dell XC超融合設(shè)備則是每個(gè)節(jié)點(diǎn)上有一個(gè)CVM虛擬機(jī)運(yùn)行的分布式存儲(chǔ)軟件。許多第三方廠商都是類似的實(shí)現(xiàn),這樣做也有一定好處,那就是可移植性。Dell XC除了VMware ESXi之外,還支持微軟Hyper-V和AHV(KVM)虛擬化環(huán)境。
Dell XC幾年前就在NDFS分布式文件系統(tǒng)上實(shí)現(xiàn)了壓縮和重復(fù)數(shù)據(jù)刪除,以及快照和克隆的支持,如今這些功能逐漸成為超融合產(chǎn)品的標(biāo)配。vSAN 則傾向于簡(jiǎn)捷的設(shè)計(jì)——快照和克隆都是沿用vSphere虛擬機(jī)自身的功能。
本文將重點(diǎn)討論Dell XC系列比較有特色的兩個(gè)存儲(chǔ)特性。
在傳統(tǒng)服務(wù)器+SAN網(wǎng)絡(luò)+存儲(chǔ)陣列架構(gòu)中,所有主機(jī)都是通過存儲(chǔ)網(wǎng)絡(luò)訪問集中式存儲(chǔ),數(shù)據(jù)的可靠性和可用性在后者內(nèi)部實(shí)現(xiàn)。而基于分布式存儲(chǔ)技術(shù)的超融合集群,其虛擬機(jī)數(shù)據(jù)通過副本保護(hù)存放于多個(gè)服務(wù)器節(jié)點(diǎn)上,以此來(lái)保證冗余高可用。
在分布式存儲(chǔ)/超融合集群中,相當(dāng)于用以太網(wǎng)替代了傳統(tǒng)FC交換機(jī)的功能,這時(shí)選擇一款高品質(zhì)的交換機(jī)更為重要。在Dell XC推薦的參考配置中,我們可以看到Dell Networking S4048-ON這款10/40 GbE架頂式開放式網(wǎng)絡(luò)交換機(jī)——高密度1RU 48端口10 GbE,具有6條40 GbE上行鏈路,且具有超低延遲、無(wú)阻塞,可確保實(shí)現(xiàn)線速性能。
如果不做特別的設(shè)計(jì),虛擬機(jī)需要訪問的數(shù)據(jù)副本不一定位于其所在節(jié)點(diǎn)本地,讀寫操作將會(huì)增加一些集群間的網(wǎng)絡(luò)流量。Dell XC超融合使用了下面的“本地讀”技術(shù)來(lái)對(duì)此進(jìn)行優(yōu)化。
在常規(guī)情況下,每個(gè)虛擬機(jī)寫入NDFS的數(shù)據(jù),其中一個(gè)副本放在服務(wù)器本地存儲(chǔ),以保證后續(xù)讀取不通過網(wǎng)絡(luò)提高效率。一旦出現(xiàn)虛擬機(jī)遷移到其它節(jié)點(diǎn),將會(huì)遵循以下規(guī)則處理:
新寫入的數(shù)據(jù),繼續(xù)按照本地讀優(yōu)化規(guī)則,在新的服務(wù)器宿主機(jī)存儲(chǔ)一個(gè)副本。
當(dāng)虛擬機(jī)在新位置讀取原來(lái)節(jié)點(diǎn)上的數(shù)據(jù)時(shí),會(huì)觸發(fā)數(shù)據(jù)遷移以維持“I/O本地化”。
(注:只在讀操作發(fā)生時(shí)才移動(dòng)數(shù)據(jù),以減少網(wǎng)絡(luò)流量,同時(shí)我們也應(yīng)考慮到虛擬機(jī)可能隨時(shí)根據(jù)需要遷移回原節(jié)點(diǎn)或者新的位置。)
在虛擬機(jī)被遷移之前,如果有部分?jǐn)?shù)據(jù)的“第二副本”正好位于遷移后的新宿主機(jī),這些數(shù)據(jù)在讀取時(shí)將無(wú)需觸發(fā)數(shù)據(jù)移動(dòng)。
當(dāng)從事技術(shù)工作到一定階段,就會(huì)發(fā)現(xiàn)每種技術(shù)路線/選擇都會(huì)有其限制,基本上沒有十全十美的。無(wú)論是否為支持“本地讀”的超融合,我們注意到一些分布式存儲(chǔ)設(shè)計(jì)為只從主副本讀,這樣做不只是為了圖省事,也能節(jié)約內(nèi)存/SSD緩存的使用。
在I/O訪問足夠離散的情況下,只從主副本讀不會(huì)造成不均衡的情況。而在服務(wù)器虛擬化應(yīng)用中卻有一種情況可能造成數(shù)據(jù)熱點(diǎn),那就是在分布式存儲(chǔ)上創(chuàng)建快照,并以此作為虛機(jī)模板(黃金鏡像)。如下圖,此時(shí)“Base VM vDisk”的原有數(shù)據(jù)塊被凍結(jié)為只讀,而同時(shí)它還要為“鏈接克隆”并運(yùn)行于其它服務(wù)器節(jié)點(diǎn)上的虛擬機(jī)提供讀訪問。此時(shí)怎樣同時(shí)照顧多個(gè)節(jié)點(diǎn)上的“本地讀”呢?
針對(duì)這種應(yīng)用場(chǎng)景,Dell XC特別設(shè)計(jì)了影子克隆(Shadow Clones)特性。一旦NDFS定義基礎(chǔ)虛擬機(jī)目標(biāo)磁盤為multi-reader狀態(tài),該vDisk將被標(biāo)記為不可變,并在出現(xiàn)跨節(jié)點(diǎn)讀虛機(jī)模板時(shí)將數(shù)據(jù)緩存在本地CVM控制的存儲(chǔ)上。
如此一來(lái),在快照/克隆之后每個(gè)節(jié)點(diǎn)上的虛機(jī)仍然能夠做到本地讀,有效分散了數(shù)據(jù)熱點(diǎn)。影子克隆(Shadow Clones)會(huì)增加一些磁盤占用,相比之下集中式存儲(chǔ)陣列沒有這個(gè)問題。比如Dell SC遇到SSD或者HDD分層性能不足的情況,向?qū)挆l帶化存儲(chǔ)池中添加對(duì)應(yīng)的驅(qū)動(dòng)器就可以輕松rebalance擴(kuò)展性能。當(dāng)然,這是由分布式/集中存儲(chǔ)自身的特點(diǎn)所決定,并不意味著選擇陣列就不需要做IOPS和SAN網(wǎng)絡(luò)帶寬性能設(shè)計(jì)。
Dell XC超融合提供了高效的數(shù)據(jù)壓縮特性。如下圖:大數(shù)據(jù)塊或者順序I/O將在內(nèi)存中壓縮處理并直接寫入Extent Store持久存儲(chǔ)層;而隨機(jī)I/O則直接先進(jìn)入OpLog——位于SSD上的寫緩存,經(jīng)過合并、在寫入到Extent Store之前進(jìn)行壓縮。這樣做顯然是性能優(yōu)先的考慮,原則上不會(huì)因?yàn)閴嚎s處理而增加延時(shí)。
就像我在《存儲(chǔ)極客:為什么說VSAN與Dell SC漸行漸近?》中所寫,如今分布式和集中存儲(chǔ)系統(tǒng)中的有些技術(shù)是相通并可以借鑒的。Dell SC陣列的活動(dòng)數(shù)據(jù)壓縮,也是先將原始內(nèi)容直接寫入高速SSD RAID1分層,然后向RAID 5/6或者HDD執(zhí)行自動(dòng)分層存儲(chǔ)的數(shù)據(jù)調(diào)度時(shí)執(zhí)行壓縮。這一點(diǎn)與Dell XC超融合的在線壓縮有類似之處。
在Dell服務(wù)器上有一個(gè)特色的Dual-SD模塊選件,可以用于安裝VMware ESXi等嵌入式操作系統(tǒng)。在XC系列超融合上,該選件有一個(gè)專門的用途——系統(tǒng)軟件恢復(fù)介質(zhì),包括CVM在內(nèi)的管理組件等。它能夠快速重置XC系統(tǒng)至出廠鏡像狀態(tài),只需要10-20分鐘的時(shí)間。
最后給大家推薦一款新產(chǎn)品——Dell XC超融合家族中的新成員XC430 Xpress。這是專為中等企業(yè)規(guī)模設(shè)計(jì),提供多功能合一的解決方案:原生地整合了服務(wù)器、存儲(chǔ)與虛擬化,并將基礎(chǔ)架構(gòu)堆疊大幅簡(jiǎn)化至單一、省空間的平臺(tái)。只需要3-4個(gè)1U節(jié)點(diǎn),就可以為5~500個(gè)虛擬機(jī)器(VM)提供經(jīng)過驗(yàn)證的性能和可靠性,讓身兼多職的IT人員能更輕松支持所有的基礎(chǔ)架構(gòu)需求。
選擇Dell XC430 Xpress,您就能快速開啟業(yè)界領(lǐng)先體驗(yàn)的超融合之旅。而我在本文中介紹的技術(shù),只是其中一些代表哦