關(guān)于運(yùn)維,阿里云、字節(jié)、華科的專家如是說(shuō)
只有今天周密的“運(yùn)”籌帷幄,才有將來(lái)持續(xù)的“維”護(hù)穩(wěn)定。不久前,阿里云聯(lián)合中國(guó)計(jì)算機(jī)行業(yè)協(xié)會(huì)信息存儲(chǔ)與安全專業(yè)委員會(huì),邀請(qǐng)到了來(lái)自阿里云、字節(jié)跳動(dòng)、華中科技大學(xué)的多位專家,共同探討數(shù)字經(jīng)濟(jì)時(shí)代存儲(chǔ)系統(tǒng)的運(yùn)維之道。
一、降低延遲,避免系統(tǒng)性能急劇變化
運(yùn)維的本質(zhì)是對(duì)網(wǎng)絡(luò)、服務(wù)器、服務(wù)的生命周期各個(gè)階段的運(yùn)營(yíng)與維護(hù),在成本、穩(wěn)定性、效率上達(dá)成一致可接受的狀態(tài)。在 ICT 行業(yè)里,運(yùn)維人常常調(diào)侃“運(yùn)維是對(duì)應(yīng)用的承諾,不離不棄一輩子”。他們就像是數(shù)據(jù)中心和公司里IT資源的管家、保安、救火員。
阿里云智能資深技術(shù)專家、對(duì)象存儲(chǔ)研發(fā)負(fù)責(zé)人羅慶超對(duì)此深有體會(huì)。他回憶起了阿里云大客戶請(qǐng)求延時(shí)抖動(dòng)保障的過(guò)往,指出云存儲(chǔ)服務(wù)請(qǐng)求的延時(shí)抖動(dòng)厲害的時(shí)候,應(yīng)用整體性能會(huì)產(chǎn)生過(guò)山車式的變化。
而云上的請(qǐng)求延時(shí)包含網(wǎng)絡(luò)延時(shí)和存儲(chǔ)延時(shí),云服務(wù)的網(wǎng)絡(luò)非常復(fù)雜,包含BGP(Border Gateway Protocol)和靜態(tài)的公網(wǎng)以及數(shù)據(jù)中心內(nèi)的網(wǎng)絡(luò)。找出影響延時(shí)的擁塞點(diǎn)和合理調(diào)度,對(duì)避免造成擁堵至關(guān)重要。
存儲(chǔ)服務(wù)還要處理好介質(zhì)訪問(wèn)的延遲問(wèn)題,機(jī)械/固態(tài)盤也是個(gè)復(fù)雜的系統(tǒng),壓力越大延遲越高。特別是在分布式存儲(chǔ)系統(tǒng)中,還會(huì)帶來(lái)傳染效應(yīng)。對(duì)象存儲(chǔ)OSS為了降低延時(shí)的抖動(dòng),從快速監(jiān)控、準(zhǔn)確告警、根因分析、優(yōu)化調(diào)度入手,將延時(shí)抖動(dòng)控制在合理的方差范圍內(nèi),保證了良好的客戶體驗(yàn)。
華中科技大學(xué)研究員、博士生導(dǎo)師吳非笑言,由于自己來(lái)自高校,并未親身感受到運(yùn)維人的壓力,但能理解堪比永動(dòng)機(jī)的7*24待命之不易。當(dāng)前云存儲(chǔ)的可靠性要求是11個(gè)9,固態(tài)硬盤和傳統(tǒng)機(jī)械硬盤是云存儲(chǔ)中最基礎(chǔ)的數(shù)據(jù)存儲(chǔ)單元,維護(hù)起來(lái)并不簡(jiǎn)單。前者的存儲(chǔ)介質(zhì)由閃存構(gòu)成,從原理上講,閃存就像一道門,每開一次就有一次磨損,在使用過(guò)程中不可避免會(huì)出現(xiàn)老化,逐漸吱呀作響,故障也接踵而至;后者像機(jī)械機(jī)器一樣不停擺動(dòng),但終有停轉(zhuǎn)之時(shí)。在由成千上萬(wàn)的固態(tài)盤或硬盤所構(gòu)成的存儲(chǔ)系統(tǒng)里,要保證如此高的可靠性,運(yùn)維人的壓力可見一斑。
二、因時(shí)而變,智能化運(yùn)維大勢(shì)所趨
“欲善新基建,必先利運(yùn)維”。在企業(yè)數(shù)字化進(jìn)程中,運(yùn)維則是濃墨重彩的一筆。
字節(jié)跳動(dòng)數(shù)據(jù)庫(kù)存儲(chǔ)技術(shù)負(fù)責(zé)人張雷表示,從傳統(tǒng)的手動(dòng)運(yùn)維,到DevOps的自動(dòng)化運(yùn)維,再到AIOps的智能化運(yùn)維,運(yùn)維技術(shù)在近十幾年實(shí)現(xiàn)了跨越式發(fā)展。字節(jié)云數(shù)據(jù)庫(kù)云存儲(chǔ)整個(gè)運(yùn)維體系的發(fā)展歷程,也大致分為三個(gè)階段。
第一個(gè)階段在2016年以前,整體的數(shù)據(jù)庫(kù)和存儲(chǔ)的體量都不是特別大,團(tuán)隊(duì)運(yùn)維還處于“刀工石斧”的狀態(tài),也就是基本上靠人工就能搞定。
第二個(gè)階段是2017到2021年,業(yè)務(wù)的規(guī)模飛速發(fā)展,云存儲(chǔ)的系統(tǒng)也達(dá)到了EB量級(jí),數(shù)據(jù)庫(kù)的規(guī)模都是幾千甚至上萬(wàn)套庫(kù),人工運(yùn)維天花板已顯現(xiàn),因此運(yùn)維團(tuán)隊(duì)轉(zhuǎn)而構(gòu)建一些自動(dòng)化的運(yùn)維平臺(tái),依托這些平臺(tái)去搞定運(yùn)營(yíng)問(wèn)題。
第三個(gè)階段是自2021年年中,依托AI等技術(shù)的第三代運(yùn)維體系開始構(gòu)建。將運(yùn)維人員的知識(shí)和運(yùn)維經(jīng)驗(yàn)與大數(shù)據(jù)、機(jī)器學(xué)習(xí)技術(shù)相結(jié)合,融入到運(yùn)維系統(tǒng)中代替人力,從而解決更大規(guī)模上的運(yùn)營(yíng)效率問(wèn)題。
在這三個(gè)階段中,整個(gè)業(yè)務(wù)體系的發(fā)展,呈現(xiàn)出兩方面的能力躍遷:一方面是運(yùn)維的文化、組織、能力的提升,通俗的理解就是大家摸黑前行,從做個(gè)體運(yùn)維到成體系、成建制地構(gòu)建了專職的運(yùn)維的SRE的團(tuán)隊(duì)去運(yùn)維;另一方面,整個(gè)運(yùn)維體系和服務(wù)化的一些技術(shù)體系也都在前進(jìn),比如從最早期的管理幾十臺(tái)服務(wù)器到現(xiàn)在管理幾十萬(wàn)臺(tái)服務(wù)器,就是技術(shù)體系不斷演進(jìn)去支持的。總而言之,運(yùn)維的文化和組織、以及運(yùn)維的技術(shù)體系,這兩條路是齊頭并進(jìn)的。
三、快速定位,診斷問(wèn)題根因所在
隨著業(yè)務(wù)走上云端,運(yùn)維也逐步“云化”。資源監(jiān)控、終端管控、安全支持等運(yùn)維服務(wù)轉(zhuǎn)化為云端應(yīng)用,企業(yè)可以根據(jù)需求實(shí)現(xiàn)訂閱。
張雷表示通常會(huì)關(guān)注服務(wù)的黃金指標(biāo),尤其是跟穩(wěn)定性相關(guān)的一些黃金指標(biāo),因?yàn)閷?duì)于大型在線服務(wù)而言,穩(wěn)定性可能是第一位的。此外,他更關(guān)注長(zhǎng)期的所依賴服務(wù)的一些技術(shù)演進(jìn)路徑,以便未雨綢繆,保證在技術(shù)或者產(chǎn)品形態(tài)上發(fā)生巨變時(shí),運(yùn)維/運(yùn)營(yíng)體系不會(huì)掉隊(duì)。
羅慶超指出阿里云對(duì)象存儲(chǔ)OSS作為服務(wù)的提供商,要做到服務(wù)承諾的SLA(服務(wù)級(jí)別協(xié)議)和 SLO(服務(wù)級(jí)別目標(biāo))這兩個(gè)關(guān)鍵指標(biāo)。細(xì)而言之,OSS官網(wǎng)承諾了可用性的SLA為業(yè)界領(lǐng)先的99.995%,那作為服務(wù)商就一定會(huì)按指標(biāo)準(zhǔn)來(lái)度量請(qǐng)求的成功率,想盡千方百計(jì)來(lái)保證該指標(biāo)。SLO則是更詳細(xì)的服務(wù)項(xiàng)承諾,例如保障客戶的請(qǐng)求整體的帶寬要能夠達(dá)到穩(wěn)定的Tbps級(jí)量級(jí),同時(shí)一些典型的請(qǐng)求時(shí)延能夠保證在100ms這個(gè)量級(jí),不能有太大的波動(dòng)。
近期阿里云還會(huì)發(fā)布一個(gè)可觀測(cè)服務(wù)CloudLens,會(huì)為客戶提供主流云產(chǎn)品的運(yùn)維知識(shí)。CloudLens為對(duì)象存儲(chǔ)OSS提供了用量分析、性能監(jiān)控、安全分析、數(shù)據(jù)保護(hù)、異常檢測(cè)、訪問(wèn)情況分析等功能,從而在成本、性能、安全、數(shù)據(jù)保護(hù)、穩(wěn)定性、訪問(wèn)分析6大維度支撐客戶的管理能力。
吳非認(rèn)為,為了支撐應(yīng)用的快速發(fā)展,存儲(chǔ)技術(shù)也在不斷演進(jìn)。從傳統(tǒng)的磁盤陣列到集中式存儲(chǔ),再到現(xiàn)在系統(tǒng)里可能有幾十或者上萬(wàn)臺(tái)服務(wù)器的分布式存儲(chǔ)。在技術(shù)上首先需要考慮怎樣保證成千上萬(wàn)臺(tái)服務(wù)器能夠可靠運(yùn)行。從運(yùn)維的角度看,就是要不出故障或者少出故障,或者快速檢測(cè)出故障,達(dá)到快速修復(fù)、快速恢復(fù)、快速檢測(cè)等指標(biāo)。
近年來(lái)AI發(fā)展得如火如荼,高??蒲腥藛T也在做用AI提前預(yù)測(cè)系統(tǒng)故障的相關(guān)研究,希望在系統(tǒng)故障發(fā)生前完成數(shù)據(jù)遷移,從而有效減輕運(yùn)維的壓力。
四、產(chǎn)學(xué)研用,打造成長(zhǎng)共同體
運(yùn)維為業(yè)務(wù)系統(tǒng)提供的保障,既離不開阿里云這樣的服務(wù)提供商的布局,又離不開字節(jié)這樣的產(chǎn)品使用方的努力。而高校及科研院所作為基礎(chǔ)理論技術(shù)與前沿技術(shù)研究的主體,在較多關(guān)鍵前沿技術(shù)方面擁有深厚的基礎(chǔ)技術(shù)儲(chǔ)備和豐富的理論研究基礎(chǔ)。因此,產(chǎn)學(xué)研合作創(chuàng)新是產(chǎn)業(yè)發(fā)展需要重視的一個(gè)板塊。
吳非表示,用“共同成長(zhǎng)體”去定義這樣的合作關(guān)系較為妥帖,這個(gè)鏈條包含了創(chuàng)新鏈、產(chǎn)業(yè)鏈以及用戶鏈。正是因?yàn)橛羞@樣的聯(lián)盟將用戶方、研發(fā)方鏈接在一起,促進(jìn)彼此的發(fā)展。用通俗的說(shuō)法就是產(chǎn)、學(xué)、研、用為一體,各方共同成長(zhǎng)、促進(jìn)技術(shù)的發(fā)展與落地。
比如高校研究云存儲(chǔ)的可靠性問(wèn)題時(shí),提出一種新算法,在推進(jìn)算法落地應(yīng)用過(guò)程中,可能需要跟字節(jié)跳動(dòng)、阿里云等企業(yè)合作,在實(shí)際系統(tǒng)上部署算法,推動(dòng)產(chǎn)業(yè)發(fā)展。
吳非還提到,在產(chǎn)學(xué)研界跨界創(chuàng)新也成為高校專家學(xué)者自身職業(yè)發(fā)展規(guī)劃中的重要一環(huán)。不少專家學(xué)者在產(chǎn)業(yè)界致力于推動(dòng)技術(shù)落地之后再次選擇回歸學(xué)術(shù)界,這個(gè)叫做“學(xué)術(shù)休假”。她相信,未來(lái)學(xué)術(shù)界和產(chǎn)業(yè)界之間會(huì)進(jìn)一步深入融合。
張雷認(rèn)為,產(chǎn)學(xué)研一體化是技術(shù)從誕生到廣泛應(yīng)用的重要背后推手。最近幾年,云存儲(chǔ)系統(tǒng)的一些技術(shù)已然固化,他首先希望學(xué)術(shù)界、研究界能夠在基礎(chǔ)設(shè)施領(lǐng)域里帶來(lái)更多突破:無(wú)論是存儲(chǔ)的介質(zhì)、還是整個(gè)云存儲(chǔ)體系結(jié)構(gòu)的突破,亦或是一些體系、運(yùn)維思路、方法上的突破,都可以為行業(yè)帶來(lái)新生機(jī)。其次,產(chǎn)業(yè)界也要精益求精,大膽嘗試新技術(shù)、新方法、新思想,并將其融入到合適的場(chǎng)景中。因?yàn)楫a(chǎn)業(yè)界的大型企業(yè)如字節(jié)跳動(dòng),整個(gè)技術(shù)體量、服務(wù)器、數(shù)量存儲(chǔ)量規(guī)模都比較大,其實(shí)有一個(gè)非常好的技術(shù)杠桿效應(yīng)。即使看起來(lái)一個(gè)非常小的一個(gè)技術(shù)優(yōu)化,但放到體量大的場(chǎng)景下就能產(chǎn)生非常大的價(jià)值。所以,產(chǎn)學(xué)研各方的互相支撐是十分必要的。
羅慶超指出,阿里云作為服務(wù)供應(yīng)商,共同成長(zhǎng)核心有兩點(diǎn):一是為共同的運(yùn)維能力提供底座的服務(wù),二是吸收客戶和業(yè)界、學(xué)界提供的一些輸入以及先進(jìn)思想,從而幫助底座成長(zhǎng)。
針對(duì)兩位嘉賓提到的產(chǎn)學(xué)研結(jié)合,羅慶超表示,在共同成長(zhǎng)的演進(jìn)上有兩個(gè)階段可能會(huì)非常重要。第一個(gè)階段中,CCIA這樣組織提供了一個(gè)共同成長(zhǎng)的土壤和生態(tài),把這個(gè)CCIA運(yùn)作好,可以為運(yùn)維、技術(shù)的共同成長(zhǎng)打下堅(jiān)實(shí)的基礎(chǔ)。第二階段,共同成長(zhǎng)體一定要結(jié)出成果,比如通過(guò)CCIA這個(gè)組織,搭建交流橋梁,孵化出一些在業(yè)界頗具影響力的標(biāo)準(zhǔn)白皮書或者技術(shù)上的創(chuàng)新點(diǎn)子。
結(jié)語(yǔ):隨著高校功能從人才培育、科學(xué)研究延伸到社會(huì)服務(wù),企業(yè)、協(xié)會(huì)與高校合作將進(jìn)一步深化,這無(wú)疑有利于形成良性發(fā)展的循環(huán)圈,推動(dòng)存儲(chǔ)科技成果加速市場(chǎng)化,而在這個(gè)過(guò)程中,不管是用戶還是廠商都將受益匪淺。