機(jī)器學(xué)習(xí)模型太大難部署?這里有 3 個(gè)解決方案
本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請(qǐng)至雷鋒網(wǎng)官網(wǎng)申請(qǐng)授權(quán)。
雖然因“疫情”的影響,讓技術(shù)人群放棄了聚會(huì),減少了面對(duì)面溝通,但他們對(duì)于學(xué)習(xí)和交流的渴望從未停歇過(guò)。為此華為特別推出了#Σco時(shí)間#系列欄目,以線上直播+互動(dòng)的形式,共話技術(shù)變革與行業(yè)轉(zhuǎn)型。
3月4日下午3點(diǎn),本期#Σco時(shí)間#聚焦的話題是“大數(shù)據(jù)存算是‘分’還是‘合’,您做對(duì)了嗎?”——華為智能數(shù)據(jù)與存儲(chǔ)分布式存儲(chǔ)高級(jí)營(yíng)銷專家崔玉祥來(lái)到了華為“智能數(shù)據(jù)基礎(chǔ)設(shè)施「學(xué)數(shù)派」”直播間,分享了華為如何看待存算分離的價(jià)值,以及華為大數(shù)據(jù)的存算分離解決方案和應(yīng)用實(shí)踐,并與上千位線上嘉賓探討了存算分離技術(shù)的發(fā)展趨勢(shì)和市場(chǎng)前景。
數(shù)字經(jīng)濟(jì)時(shí)代,大數(shù)據(jù)架構(gòu)走向存算分崔玉祥介紹道,在數(shù)字經(jīng)濟(jì)時(shí)代,數(shù)據(jù)已經(jīng)成為新的生產(chǎn)資料,并從數(shù)據(jù)管理走向數(shù)據(jù)運(yùn)營(yíng),大數(shù)據(jù)正發(fā)揮著越來(lái)越重要的作用,數(shù)據(jù)驅(qū)動(dòng)體驗(yàn)、數(shù)據(jù)驅(qū)動(dòng)決策、數(shù)據(jù)驅(qū)動(dòng)流程的各種應(yīng)用每天都在不斷上演。隨著5G和AI技術(shù)的發(fā)展,數(shù)據(jù)量必將迎來(lái)爆發(fā)式的增長(zhǎng),在這樣的形勢(shì)下,傳統(tǒng)的大數(shù)據(jù)存算一體架構(gòu),在多個(gè)行業(yè)都面臨著資源利用率不均、存儲(chǔ)成本高、資源共享難的挑戰(zhàn)。
以國(guó)內(nèi)電信運(yùn)營(yíng)商為例,每年市場(chǎng)采購(gòu)金額高達(dá)上億元,但是如此巨大的投資在支持電信業(yè)務(wù)的同時(shí),也帶來(lái)了計(jì)算資源浪費(fèi),龐大的服務(wù)器設(shè)備占據(jù)機(jī)房空間導(dǎo)致制冷供電費(fèi)用高漲等諸多挑戰(zhàn),“降本增效”成為電信運(yùn)營(yíng)商的重要訴求。而同樣的,提升資源利用率,部署彈性靈活,按需調(diào)度計(jì)算資源這些訴求,也成為金融、政務(wù)領(lǐng)域用戶亟待解決的課題。
如何化解這么多挑戰(zhàn)?崔玉祥認(rèn)為,計(jì)算存儲(chǔ)分離是大數(shù)據(jù)架構(gòu)演進(jìn)的必然趨勢(shì),也是解決行業(yè)用戶數(shù)據(jù)痛點(diǎn)的一大利器。他解釋道,在Hadoop1.0時(shí)代,計(jì)算和存儲(chǔ)是高度融合的,僅能處理單一的MapReduce分析業(yè)務(wù);到了Hadoop2.0時(shí)代,計(jì)算層與數(shù)據(jù)開始解耦,通過(guò)Yarn實(shí)現(xiàn)了獨(dú)立的資源管理,并開始支持Spark等更多的計(jì)算引擎;而如今已經(jīng)到了Hadoop3.0時(shí)代,計(jì)算存儲(chǔ)走向分離,通過(guò)Hadoop EC來(lái)支持冷數(shù)據(jù)的存儲(chǔ),逐步向數(shù)據(jù)湖架構(gòu)演進(jìn)。“存算分離其實(shí)更適合企業(yè)級(jí)市場(chǎng),它實(shí)現(xiàn)了資源云化和靈活擴(kuò)展,能夠讓用戶享受更專業(yè)的存儲(chǔ),更佳的可靠性和利用率。”
三大優(yōu)勢(shì)令華為OceanStor分布式存儲(chǔ)更懂用戶
在2019年,華為創(chuàng)新性地推出了大數(shù)據(jù)存算分離解決方案,崔玉祥向觀看嘉賓詳細(xì)講解了華為OceanStor分布式存儲(chǔ),一個(gè)能夠打造更高性價(jià)比的大數(shù)據(jù)存儲(chǔ)方案。簡(jiǎn)直就是為多樣式存儲(chǔ)和超大數(shù)據(jù)量的用戶量身定制。“簡(jiǎn)單總結(jié),華為OceanStor分布式存儲(chǔ)最鮮明的三個(gè)特點(diǎn)就是成本最優(yōu)、效率最高、使用最簡(jiǎn)。”
【成本最優(yōu)】在成本方面,華為OceanStor分布式存儲(chǔ)實(shí)現(xiàn)存算分離,資源按需獨(dú)立擴(kuò)展,彈性EC+分級(jí),存儲(chǔ)成本大幅降低。“性能、可靠性和HDFS三副本相當(dāng),但是存儲(chǔ)利用率相比三副本提升1.75倍,”崔玉祥還特別指出,OceanStor分布式存儲(chǔ)可以通過(guò)自動(dòng)生命周期管理獲得更佳的性價(jià)比,且計(jì)算側(cè)無(wú)感知。用戶可以定義不同的數(shù)據(jù)寫入策略,使不同類型的應(yīng)用讀寫不同的存儲(chǔ)池,實(shí)現(xiàn)資源的物盡其用;用戶還可以定義數(shù)據(jù)遷移策略,實(shí)現(xiàn)熱、溫、冷數(shù)據(jù)的自動(dòng)轉(zhuǎn)換,降低整體TCO。
他以上文中提到的電信運(yùn)營(yíng)商為例,運(yùn)營(yíng)商日志留存場(chǎng)景下,計(jì)算利用率為30%時(shí),總?cè)萘啃枨蟠笥?56TB 時(shí),改用存算分離方案會(huì)有TCO優(yōu)勢(shì);總?cè)萘啃枨蟠笥?PB時(shí),存算分離方案的TCO節(jié)省會(huì)達(dá)到40%以上。
【效率最高】在數(shù)據(jù)應(yīng)用效率方面,華為OceanStor分布式存儲(chǔ)采用全對(duì)稱分布式NameNode,集群性能和支持文件數(shù)隨節(jié)點(diǎn)數(shù)目增加,單一命名空間支持文件數(shù)達(dá)百億級(jí)。不僅如此,華為還實(shí)現(xiàn)了多集群數(shù)據(jù)融合互通,提升數(shù)據(jù)共享和分析效率,協(xié)議互通更是提升了分析效率30%,降低空間占用50%。“在一家金融客戶的應(yīng)用測(cè)試中,基于相同的計(jì)算和存儲(chǔ)硬件配置,OceanStor存儲(chǔ)存算分離方案在大部分測(cè)試中,性能均超過(guò)了原生HDFS三副本,部分測(cè)試項(xiàng)的執(zhí)行時(shí)間甚至降低了70%以上。”
【使用最簡(jiǎn)】在實(shí)際操作運(yùn)維方面,華為原生HDFS接口提供了更佳性能和使用體驗(yàn),例如完整HDFS語(yǔ)義100%兼容主流大數(shù)據(jù)組件,用戶無(wú)需安裝插件,安裝維護(hù)簡(jiǎn)單。更重要的是,通過(guò)ViewFS或Hbase元數(shù)據(jù)網(wǎng)關(guān)方式可以實(shí)現(xiàn)新老共存,保護(hù)用戶已有投資,系統(tǒng)級(jí)數(shù)據(jù)冗余保護(hù)能夠支持4節(jié)點(diǎn)同時(shí)失效。崔玉祥特別強(qiáng)調(diào),即使發(fā)生節(jié)點(diǎn)故障,華為OceanStor分布式存儲(chǔ)也能夠自動(dòng)調(diào)整EC級(jí)別,確保新寫入數(shù)據(jù)可靠性不下降,與此同時(shí),多節(jié)點(diǎn)并行重構(gòu),可實(shí)現(xiàn)2TB/小時(shí)數(shù)據(jù)恢復(fù)效率。
存算分離,助力千行百業(yè)大數(shù)據(jù)進(jìn)階
自2019年以來(lái),華為OceanStor分布式存儲(chǔ)解決方案已經(jīng)被廣泛應(yīng)用在電信、金融、政務(wù)、大型企業(yè)各個(gè)領(lǐng)域中。在本次直播活動(dòng)中,崔玉祥專門分享了兩個(gè)有代表性的應(yīng)用案例。
在江蘇,原有的政務(wù)系統(tǒng)大多采用的是煙囪化部署,數(shù)據(jù)孤島比比皆是。然而隨著數(shù)據(jù)量快速增長(zhǎng),江蘇決定基于華為存算分離解決方案開始打造分層解耦、高效共享的大數(shù)據(jù)平臺(tái)。華為幫助江蘇政務(wù)系統(tǒng)打造了一個(gè)統(tǒng)一大數(shù)據(jù)平臺(tái),可以同時(shí)支撐多種業(yè)務(wù),實(shí)現(xiàn)部門間數(shù)據(jù)快速共享,實(shí)現(xiàn)政務(wù)服務(wù)“最多跑一次”。在部署中,存算分離就大顯身手,加上計(jì)算資源和存儲(chǔ)資源云化,實(shí)現(xiàn)了資源靈活分配,業(yè)務(wù)上線時(shí)間縮短90% 。同時(shí),借助OceanStor分布式存儲(chǔ)的彈性EC技術(shù),將存儲(chǔ)利用率從33% 提升到91.6%,從容應(yīng)對(duì)數(shù)據(jù)快速增長(zhǎng)的挑戰(zhàn)。
在河北電信,已部署安裝了89臺(tái)存算一體的大數(shù)據(jù)集群,整體存儲(chǔ)空間使用率已超80%,存儲(chǔ)空間不足,經(jīng)常需要通過(guò)刪除數(shù)據(jù)的方式釋放存儲(chǔ)空間。而且現(xiàn)有機(jī)房空間緊張,僅能容納135臺(tái)2U服務(wù)器,按原有存算一體方式擴(kuò)容,機(jī)房空間無(wú)法滿足要求。對(duì)此,華為創(chuàng)新性地采用存算一體+存算分離共存的方案,擴(kuò)容100個(gè)計(jì)算節(jié)點(diǎn)+35個(gè)存儲(chǔ)節(jié)點(diǎn),使用Hadoop數(shù)據(jù)聯(lián)邦方案(ViewFS),既解決了新老共存問(wèn)題,又實(shí)現(xiàn) 了性能和容量的均衡擴(kuò)展,相比原始方案提升60%可用容量。崔玉祥指出,存算分離方案無(wú)縫擴(kuò)容,數(shù)據(jù)均衡讀寫,用戶既不需要升級(jí)現(xiàn)網(wǎng)大數(shù)據(jù)版本,也不需要遷移現(xiàn)網(wǎng)數(shù)據(jù)。
相信通過(guò)本次直播活動(dòng),及華為大咖帶來(lái)的精彩分享,行業(yè)用戶對(duì)于存算分離將會(huì)有更加深刻的認(rèn)識(shí),對(duì)于如何選擇合適自己的存算分離解決方案,也能做到心中有數(shù)了。