全HDD的OceanStor 5500 V3做了一次SPC-1測(cè)試 成績(jī)還不錯(cuò)
當(dāng)時(shí)光進(jìn)入2015年,上面的這段話是否還讓人確信無(wú)疑?
不可否認(rèn),在過(guò)去的2、3年中,從存儲(chǔ)供應(yīng)商、企業(yè)用戶、科技媒體中傳出“SPC-1的測(cè)試結(jié)果意義已然消亡”或是“SPC-1測(cè)試的結(jié)果可參考性減弱”這樣的觀點(diǎn)不絕于耳——作為一款“久經(jīng)歷史”的SAN存儲(chǔ)系統(tǒng)IOPS性能基準(zhǔn)測(cè)試,SPC-1當(dāng)下的現(xiàn)實(shí)意義當(dāng)真如此么?
事實(shí)是,企業(yè)級(jí)存儲(chǔ)廠商參與SPC-1的熱情仍然維持在較高的水平,2013-2014年幾乎所有新上市的主流存儲(chǔ)廠商的系統(tǒng)都在SPC-1上做過(guò)測(cè)試;在企業(yè)用戶的采購(gòu)標(biāo)準(zhǔn)文件中——特別是中國(guó)用戶——SPC-1結(jié)果仍然是一個(gè)重要的入門(mén)門(mén)檻。
這才是SPC-1當(dāng)今“江湖地位”的真實(shí)寫(xiě)照,但這又是為什么呢?
為什么說(shuō)“SPC-1仍然是最權(quán)威的基準(zhǔn)測(cè)試之一”?
作為一款測(cè)試SAN存儲(chǔ)系統(tǒng)IOPS性能的認(rèn)證,SPC-1主要針對(duì)隨機(jī)小IO快速響應(yīng)的應(yīng)用場(chǎng)景,用于度量SAN陣列在OLTP、Database和Email三種應(yīng)用下的性能表現(xiàn)。
正式的測(cè)試流程主要包括了metrics測(cè)試、repeat1測(cè)試、repeat2測(cè)試、persistence1測(cè)試及設(shè)備下電再上電后的persistence2測(cè)試這四個(gè)測(cè)試環(huán)節(jié),前三項(xiàng)測(cè)試主要考察存儲(chǔ)系統(tǒng)的性能和穩(wěn)定性,后兩項(xiàng)則主要測(cè)試設(shè)備下電再上電后的數(shù)據(jù)一致性與可靠性。
業(yè)界普遍關(guān)注的SPC-1測(cè)試結(jié)果主要是三個(gè)指標(biāo):SPC-1 IOPS (Maximum Throughput:每秒輸入輸出次數(shù)的***值)、SPC-1 ART(Average Response Time:平均響應(yīng)時(shí)間、SPC-1 Price-Performance($/ SPC-1 IOPS:每SPC-1 IOPS的價(jià)格)。
但我們有必要贅述的是,報(bào)告中還會(huì)提到Storage Total Capacity(存儲(chǔ)系統(tǒng)總?cè)萘?、Data Protection Level(數(shù)據(jù)保護(hù)級(jí)別,Mirror或者RAID5)這兩個(gè)指標(biāo),以明確告知用戶“在不同的系統(tǒng)總?cè)萘亢蚏AID級(jí)別下,IOPS和LRT的測(cè)試結(jié)果會(huì)存在偏差”。
因此,為了讓SPC-1基準(zhǔn)測(cè)試產(chǎn)生更大的影響力,也為了讓企業(yè)用戶盡可能的了解送測(cè)系統(tǒng)的真實(shí)設(shè)備和測(cè)試情況,SPC(Storage Performance Council)即存儲(chǔ)性能委員會(huì)選擇在SPC-1確立時(shí)就全部公開(kāi)各個(gè)參與測(cè)試的存儲(chǔ)系統(tǒng)的詳盡測(cè)試報(bào)告。在這份報(bào)告中,既有系統(tǒng)配置、測(cè)試過(guò)程、SPC-1結(jié)果等內(nèi)容,也包括了測(cè)試過(guò)程中許多難以察覺(jué)的細(xì)微之處。
隨著時(shí)間的積累,SPC-1已經(jīng)成為SAN存儲(chǔ)測(cè)試領(lǐng)域的標(biāo)準(zhǔn),主流的存儲(chǔ)供應(yīng)商不免都要把自家的存儲(chǔ)系統(tǒng)放到上面跑一跑、測(cè)一測(cè),這在極大充實(shí)了SPC-1基準(zhǔn)測(cè)試結(jié)果列表的同時(shí),更讓這一測(cè)試擁有了可以橫向參考和對(duì)比的基礎(chǔ):即便企業(yè)用戶的業(yè)務(wù)負(fù)載相比SPC-1的測(cè)試模型更加復(fù)雜并略有特別,但在一個(gè)單一、統(tǒng)一的標(biāo)注測(cè)試體系下的橫向參考和對(duì)比,仍然具有重要的意義。
正是因?yàn)镾PC-1基準(zhǔn)測(cè)試“既盡可能模擬了企業(yè)客戶所需要的實(shí)際應(yīng)用場(chǎng)景的業(yè)務(wù)負(fù)載需求,又建立了完備的報(bào)告和公開(kāi)化的結(jié)果參照和考評(píng)體系,同時(shí)針對(duì)可能影響結(jié)果的多方面原因做出了一定的準(zhǔn)備”,所以,我們才會(huì)在文章開(kāi)頭說(shuō)“無(wú)論現(xiàn)實(shí)中有多少?gòu)?fù)雜的情況必須顧及,SPC-1基準(zhǔn)測(cè)試仍然是市場(chǎng)上評(píng)價(jià)SAN存儲(chǔ)IOPS性能的最權(quán)威標(biāo)準(zhǔn)測(cè)試之一”。
華為OceanStor 5500 V3參與SPC-1測(cè)試,圖啥?
今年1月,SPC委員會(huì)正式確認(rèn)了OceanStor 6800 V3(混合存儲(chǔ)系統(tǒng),SPC-1結(jié)果標(biāo)記為“HDD and SSD Storage Devices”)的SPC-1基準(zhǔn)測(cè)試結(jié)果為650,987.88 SPC-1 IOPS,這一成績(jī)對(duì)于混合陣列來(lái)說(shuō)是非常不錯(cuò)的。
OceanStor 6800 V3是華為2014年5月發(fā)布的華為OceanStor V3系列存儲(chǔ)系統(tǒng)中的高端存儲(chǔ)系列,在新的V3系列中,還包括有OceanStor 5300/5500/5600/5800 V3等中端存儲(chǔ)系統(tǒng),后者無(wú)論在性能、可擴(kuò)展性、容量上,都與前者有著一定的差距。
按照各大存儲(chǔ)供應(yīng)商的習(xí)慣,既然SPC-1是一個(gè)評(píng)價(jià)SAN存儲(chǔ)IOPS性能的基準(zhǔn)測(cè)試,那么進(jìn)行測(cè)試并公布結(jié)果的大部分都是高端存儲(chǔ),畢竟,這樣一方面能夠得到較好的IOPS性能,另一方面,高IOPS(比如“突破百萬(wàn)IOPS”這樣)的市場(chǎng)影響和宣傳效應(yīng)會(huì)更好,也更具有用戶吸引力。
但華為***進(jìn)行SPC-1基準(zhǔn)測(cè)試并提交結(jié)果的系統(tǒng),卻是V3系列中端存儲(chǔ)系統(tǒng)中的“中端”OceanStor 5500 V3,即便是在新系列的中端存儲(chǔ)系統(tǒng)中,理論上比OceanStor 5500 V3表現(xiàn)優(yōu)異的還有OceanStor 5600/5800 V3兩款產(chǎn)品。
華為存儲(chǔ)為什么會(huì)拿OceanStor 5500 V3這樣一款產(chǎn)品放在一個(gè)比拼“肌肉(IOPS)”的SPC-1基準(zhǔn)測(cè)試公開(kāi)榜單中?
華為存儲(chǔ)給出的答案大致分為三點(diǎn):***,無(wú)論是中國(guó)市場(chǎng)還是全球用戶,OceanStor 5500 V3所面向的中端存儲(chǔ)系統(tǒng)用戶,是最廣闊也是最普遍的,這一存儲(chǔ)系統(tǒng)的目標(biāo)用戶涵蓋了最為常見(jiàn)的用戶群體,所帶來(lái)的采購(gòu)參考價(jià)值***;
第二,OceanStor 5500 V3 “10萬(wàn)IOPS與7.82毫秒延時(shí)”的性能表現(xiàn),證明了其對(duì)前一代的產(chǎn)品,甚至華為存儲(chǔ)競(jìng)爭(zhēng)友商的產(chǎn)品有著較強(qiáng)的競(jìng)爭(zhēng)力和可替代性。
***一點(diǎn),此次進(jìn)行測(cè)試的OceanStor 5500 V3,采用的是全HDD的配置,沒(méi)有采用SSD進(jìn)行加速或優(yōu)化,華為存儲(chǔ)也是希望借助這一機(jī)會(huì),向業(yè)界及企業(yè)用戶證明其在存儲(chǔ)系統(tǒng)硬件、軟件及架構(gòu)設(shè)計(jì)上的深厚實(shí)力。
此外,談及為何測(cè)試全HDD配置的OceanStor 5500 V3,華為存儲(chǔ)方面表示:“對(duì)許多中型存儲(chǔ)系統(tǒng)用戶來(lái)說(shuō),容量和性能是并列***位的需求,既需要高IOPS、低延遲,也需要較大的存儲(chǔ)容量,同時(shí)資金有有一定限制,對(duì)于這些用戶來(lái)說(shuō),華為存儲(chǔ)希望讓他們了解到這并非是不可能的需求。”
“在計(jì)算虛擬化浪潮下,每個(gè)主機(jī)的CPU倍充分壓榨利用率帶來(lái)了其訪問(wèn)存儲(chǔ)系統(tǒng)的性能饑渴,更多的主機(jī)要訪問(wèn)一個(gè)共享的存儲(chǔ)資源池,也必然對(duì)存儲(chǔ)系統(tǒng)提出了更高性能的要求。”華為存儲(chǔ)產(chǎn)品線總裁范瑞琦在去年就曾表示,“SPC-1不僅對(duì)高端用戶,對(duì)中端存儲(chǔ)的目標(biāo)用戶來(lái)說(shuō),也有現(xiàn)實(shí)意義。”
總體來(lái)說(shuō),IOPS和延遲對(duì)多數(shù)用戶來(lái)說(shuō)仍然具有普遍意義,而大容量也同時(shí)是他們的需求,通過(guò)大容量的HDD,提供高性能、低延遲的中端存儲(chǔ)系統(tǒng)也是華為存儲(chǔ)對(duì)企業(yè)用戶的一種需求認(rèn)知。就OceanStor 5500 V3來(lái)說(shuō),一款雙控、配置384塊10k轉(zhuǎn)速2.5寸SAS磁盤(pán),提供不高于10ms延遲的10萬(wàn)IOPS性能的產(chǎn)品,仍然具有一定的現(xiàn)實(shí)意義。
“10萬(wàn)IOPS與7.82毫秒延時(shí)”的架構(gòu)“調(diào)優(yōu)”
這一次華為存儲(chǔ)OceanStor 5500 V3的SPC-1測(cè)試,硬件配置已經(jīng)處于行業(yè)前沿,基于英特爾x86架構(gòu)至強(qiáng)Ivy Bridge處理器的雙控陣列,PCIe 3.0內(nèi)部總線及12Gb SAS硬盤(pán)接口,每控制器48GB緩存, 384塊10k轉(zhuǎn)速 2.5寸SAS硬盤(pán)。
另外值得一提的是,OceanStor V3系列存儲(chǔ)系統(tǒng)支持16Gb FC、56Gb InfiniBand和10Gb FCoE接口,可以配置華為研發(fā)的獨(dú)立智能卡SmartIO(單接口卡多種協(xié)議)以及SmartACC卡(硬件加速,存儲(chǔ)CPU零損耗)。
但硬件配置的指標(biāo)卻并非與存儲(chǔ)系統(tǒng)的性能成絕對(duì)的同比關(guān)系,存儲(chǔ)系統(tǒng)的硬件系統(tǒng)架構(gòu)、軟件架構(gòu)以及核心算法和設(shè)計(jì)的優(yōu)化,是影響存儲(chǔ)系統(tǒng)性能(特別是低延時(shí)表現(xiàn)下取得高IOPS)的關(guān)鍵。
一、硬件架構(gòu)的優(yōu)化是全局基礎(chǔ)
以多控橫向擴(kuò)展架構(gòu)設(shè)計(jì)為基礎(chǔ)的OceanStor V3,從硬件系統(tǒng)架構(gòu)上來(lái)說(shuō),核心思路是多個(gè)控制器實(shí)現(xiàn)全局資源(指“可實(shí)現(xiàn)緩存、CPU、硬盤(pán)”)共享,讓“任一控制器資源能被其它控制器使用”;同時(shí),通過(guò)讓LUN空間可以均衡打散到系統(tǒng)內(nèi)所有硬盤(pán),讓控制器、硬盤(pán)在面對(duì)業(yè)務(wù)壓力負(fù)載時(shí)相對(duì)均衡;輔之以IP Scale-out的設(shè)計(jì),保證“系統(tǒng)松耦合且全局資源無(wú)阻塞互聯(lián)”。
華為存儲(chǔ)的IP Scale-out基于iWARP協(xié)議,這是一種構(gòu)建在TCP上的RDMA協(xié)議,基于以太網(wǎng)協(xié)議基礎(chǔ)上優(yōu)化,通過(guò)采用RDMA(遠(yuǎn)程直接數(shù)據(jù)存取)技術(shù)優(yōu)化,解決了以太網(wǎng)延遲高的問(wèn)題,同時(shí)降低了對(duì)CPU資源的侵占,“iWARP基于廣泛部署的TCP/IP協(xié)議運(yùn)行同時(shí),保留了TCP/IP所具有的路有能力和交付保障能力。”
在SPC-1基準(zhǔn)測(cè)試中,persistence1測(cè)試及設(shè)備下電再上電后的persistence2測(cè)試主要測(cè)試設(shè)備下電再上電后的數(shù)據(jù)一致性與可靠性,確保了存儲(chǔ)系統(tǒng)保證數(shù)據(jù)存儲(chǔ)的可用性與可靠性。
二、軟件架構(gòu)大幅提升整體表現(xiàn)
在OceanStor V3中采用的RAID 2.0+這一技術(shù)的核心,就是通過(guò)底層虛擬化把存儲(chǔ)空間被劃分成小粒度數(shù)據(jù)塊,基于數(shù)據(jù)塊來(lái)構(gòu)建RAID組,以數(shù)據(jù)塊為單元來(lái)進(jìn)行資源管理,這一方面避免了傳統(tǒng)RAID環(huán)境中硬盤(pán)工作壓力不均衡,導(dǎo)致熱點(diǎn)盤(pán)故障率較高,降低系統(tǒng)可靠性和可用性的問(wèn)題,另一方面,大大減少了數(shù)據(jù)重構(gòu)需要的時(shí)間,降低了重構(gòu)期間發(fā)生硬盤(pán)故障的風(fēng)險(xiǎn),即使發(fā)生嚴(yán)重的事故,失效數(shù)據(jù)量與傳統(tǒng)RAID技術(shù)相比也更少。
以RAID 2.0+為核心的華為存儲(chǔ)底層虛擬化設(shè)計(jì)
RAID 2.0+在性能方面的一大好處在于,通過(guò)將數(shù)據(jù)更為均衡的分布在更多的硬盤(pán)上,能夠更好的利用單塊硬盤(pán)并不多的IOPS貢獻(xiàn),相同數(shù)據(jù)量下調(diào)動(dòng)的硬盤(pán)比傳統(tǒng)RAID更多,自然可獲得的硬盤(pán)IOPS也就更多,這對(duì)于提高(或者說(shuō)是壓榨)現(xiàn)有HDD的性能表現(xiàn)是有一定意義的。
Cache(緩存)的優(yōu)化是存儲(chǔ)系統(tǒng)性能提高的另一個(gè)關(guān)鍵,OceanStor V3的Cache優(yōu)化設(shè)計(jì)包括兩部分:Cache分層設(shè)計(jì)和Cache優(yōu)化算法。
Cache分層設(shè)計(jì)架構(gòu)圖
Cache分層設(shè)計(jì)包括主機(jī)應(yīng)用側(cè)和盤(pán)側(cè)(前后端)的Cache:一層Cache靠近主機(jī)應(yīng)用側(cè),用于緩存用戶熱點(diǎn)數(shù)據(jù)并感知應(yīng)用提供靈活的預(yù)取策略;二層Cache靠近盤(pán)側(cè),提供元數(shù)據(jù)和數(shù)據(jù)緩存,實(shí)現(xiàn)寫(xiě)數(shù)據(jù)聚合及排序以保證高效的系統(tǒng)刷盤(pán)。同時(shí),多時(shí)間點(diǎn)緩存的設(shè)計(jì)加速快照激活、回滾操作,保障了秒級(jí)RPO的實(shí)現(xiàn)。
在Cache分層設(shè)計(jì)之外,Cache優(yōu)化算法是確保Cache被高性能利用的另一項(xiàng)關(guān)鍵技術(shù),其中包括以“IO并發(fā)管理、IO調(diào)度管理和頁(yè)面配額管理”為主的資源控制算法;包括“順序流識(shí)別算法、智能預(yù)取算法和刷盤(pán)算法”的性能優(yōu)化算法。
這兩項(xiàng)算法的目標(biāo)很簡(jiǎn)單,就是保證在面對(duì)IO需求時(shí),資源被合理利用和快速找到(***):資源控制算法通過(guò)頁(yè)面配額、并發(fā)和CPU調(diào)度管控,降低性能波動(dòng),保證IO運(yùn)行的均衡和平穩(wěn);性能優(yōu)化算法,提升讀IO的***率,減少寫(xiě)IO的時(shí)延提升寫(xiě)帶寬。
三、多核時(shí)代的算法與設(shè)計(jì)優(yōu)化
隨著企業(yè)級(jí)存儲(chǔ)系統(tǒng)逐步“x86化”,存儲(chǔ)系統(tǒng)控制器從單核走向雙核,又進(jìn)入四核、六核甚至更多核心的多核時(shí)代,又輔之以多線程、超線程設(shè)計(jì),這使得存儲(chǔ)系統(tǒng)的算法和軟件設(shè)計(jì),必須要考慮多核心處理器的利用率和性能問(wèn)題;其次,以英特爾為代表的x86處理器目前正逐步加入更多的IO優(yōu)化技術(shù),比如處理器自帶內(nèi)存控制器和PCIe控制器;第三,處理器的緩存更大,制程工藝更好,流水線效率更高也是要面臨的問(wèn)題。
存儲(chǔ)廠商們發(fā)現(xiàn),自己在基于英特爾x86架構(gòu)多核處理器的存儲(chǔ)系統(tǒng)設(shè)計(jì)時(shí),面臨著任務(wù)調(diào)度均衡、程序并行度、CPU Cache失效等問(wèn)題,這迫使架構(gòu)師們必須要降提升并行處理能力、硬件處理效率、內(nèi)存訪問(wèn)效率等因素考慮在內(nèi)。
OceanStor V3自然也不例外。
“并行處理、負(fù)載均衡、高效內(nèi)存訪問(wèn)”是OceanStor V3面向多核性能優(yōu)化的三大核心設(shè)計(jì)思路,其中包括:
·并行處理:免鎖(防止寫(xiě)入鎖定問(wèn)題),IO異步化,提升超線程效率
·負(fù)載均衡:線程負(fù)載均衡,中斷均衡,減少任務(wù)切換
·高效內(nèi)存訪問(wèn):消除核間偽共享,減少跨CPU訪問(wèn)內(nèi)存,提升CPU緩存***
高性能IO調(diào)度則是算法優(yōu)化的另一個(gè)領(lǐng)域,華為存儲(chǔ)以自主設(shè)計(jì)的IO調(diào)度算法,取代OS線程調(diào)度器,提升了線程調(diào)度的專業(yè)性,具體來(lái)說(shuō)包括:
1、減少線程間切換和搶占帶來(lái)的系統(tǒng)開(kāi)銷;
2、高效的內(nèi)存訪問(wèn)和核間的動(dòng)態(tài)負(fù)載均衡;
3、保證命令及時(shí)調(diào)度,保證IO及時(shí)、公平調(diào)度。
高性能的IO調(diào)度是提高性能的關(guān)鍵點(diǎn)之一
即便是在這個(gè)SSD充斥著市場(chǎng)的時(shí)代,“10萬(wàn)IOPS,10ms平均延遲”這一基準(zhǔn)測(cè)試結(jié)果已經(jīng)是HDD存儲(chǔ)系統(tǒng)中出類拔萃的結(jié)果,對(duì)于很多中端存儲(chǔ)系統(tǒng)的潛在用戶來(lái)說(shuō),另一只靴子“SPC-1 Price-Performance($/ SPC-1 IOPS:每SPC-1 IOPS的價(jià)格)”的落地,將是他們從潛在客戶轉(zhuǎn)為采購(gòu)客戶的最終評(píng)判標(biāo)準(zhǔn)。
2月初,存儲(chǔ)性能委員會(huì)主席Walter E.Baker到華為存儲(chǔ)成都研究所,親自驗(yàn)證了華為存儲(chǔ)OceanStor 5500 V3向委員會(huì)提交的SPC-1基準(zhǔn)測(cè)試結(jié)果,這也是SPC組織***在中國(guó)進(jìn)行實(shí)測(cè),不難看出,SPC組織對(duì)于華為在亞洲影響力的看重。
額外的幾句題外話是,雖然OceanStor 5500 V3是以全HDD的配置進(jìn)行的SPC-1基準(zhǔn)測(cè)試,但這并不意味著在這個(gè)充斥著SSD的時(shí)代,OceanStor 5500 V3就落伍了,同樣,為了更好的利用閃存技術(shù),OceanStor 5500 V3也有一系列的相關(guān)優(yōu)化技術(shù)。也許過(guò)不了多久,我們就會(huì)看到OceanStor 5500 V3的HDD和SSD混合陣列版本的SPC-1測(cè)試結(jié)果。
不過(guò),那就是另外一個(gè)話題了。